Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medición de Los Efectos Del Sesgo de Publicaciòn en Ciecnia Polìtica
Medición de Los Efectos Del Sesgo de Publicaciòn en Ciecnia Polìtica
Artículo de investigación
Investigación y Política
Julio-septiembre de 2016: 1–9
Medición de los efectos del sesgo de © El autor(es) 2016
DOI: 10.1177/2053168016665856
Resumen
Investigaciones anteriores encuentran que los resultados estadísticamente significativos están sobrerrepresentados en las publicaciones científicas. Si los
resultados significativos se favorecen constantemente en el proceso de revisión, los resultados publicados podrían exagerar sistemáticamente la magnitud
de sus hallazgos, incluso en condiciones ideales. En este artículo, medimos el impacto de este sesgo de publicación en la ciencia política utilizando un
nuevo conjunto de datos de resultados cuantitativos publicados. Aunque cualquier medida del sesgo de publicación depende de la distribución previa de
las relaciones empíricas, determinamos que las estimaciones publicadas en ciencias políticas son, en promedio, sustancialmente mayores que su valor
real bajo una variedad de opciones razonables para esta anterior. También encontramos que muchas estimaciones publicadas tienen una probabilidad de
falso positivo sustancialmente mayor que el umbral convencional ÿ = 0.05 para la significación estadística si la probabilidad previa de una relación nula
supera el 50 %. Finalmente, aunque la proporción de falsos positivos publicados se reduciría si las pruebas de significación utilizaran un ÿ más pequeño,
este cambio no resolvería el problema del sesgo al alza en la magnitud de los resultados publicados.
Palabras clave
Prueba de hipótesis, sesgo de publicación, significación estadística
Creative Commons Non Commercial CC-BY-NC: Este artículo se distribuye bajo los términos de Creative Commons
Licencia Attribution-NonCommercial 3.0 (http://www.creativecommons.org/licenses/by-nc/3.0/) que permite el uso, la reproducción y la distribución no
comercial del trabajo sin permiso adicional, siempre que el trabajo original se atribuya como se especifica en las páginas de SAGE y Open Access (https://us.sagepub.com/en-
us/nam/open-access-at-sage).
Machine Translated by Google
2 Investigación y Política
determinar cómo el sesgo de publicación ha afectado el cuerpo de ÿ fijo y conocido , podríamos calcular el grado de sesgo de publicación
conocimiento acumulado en ciencia política. Medimos el impacto del como
sesgo de publicación en la ciencia política utilizando un nuevo conjunto
de datos de resultados cuantitativos publicados. Aunque cualquier medida ÿ ÿ
ÿ
mi ÿ
ÿ ÿ| , tÿ t ÿ
ÿ
ÿ
del sesgo de publicación depende de la distribución previa de las ÿ ÿ
ÿ ÿ d ,0.05 ÿ ÿ
ÿ ÿ F ÿ ÿ
relaciones empíricas, estimamos que los resultados publicados en ciencia
política están distorsionados en un grado sustancialmente significativo ÿ
ÿ
ÿ ÿÿ ÿ ÿ
ÿ
ÿ
ÿÿ ÿ ÿ
|d F , ÿ ,ÿ
ÿ
ÿ
dÿ ÿ
(1)
ÿ
ÿ
ÿ ÿ
ÿ
= ÿÿ ÿ ÿ ÿ
ÿ
ÿ
ÿ ÿ
ÿ
d ÿ ÿ
ÿ
ÿ
sustancialmente mayores que su valor real. El grado exacto de sesgo al ÿ
ÿ ÿ ÿ ÿ ÿ
ÿ ÿ
alza depende de la elección previa, pero en el extremo superior estimamos
que el valor real de las relaciones publicadas es, en promedio, un 40 % ÿ
bajo, pero aún encuentran que al menos el 14 % de los resultados están ÿ de densidad de probabilidad t .
significativa) y ÿes la función
sesgados al alza en un 10 % o más. En segundo lugar, encontramos que Es decir, definimos el sesgo como la diferencia entre el valor esperado de
muchos resultados publicados tienen una probabilidad de falso positivo
las estimaciones estadísticamente significativas y el valor real del
sustancialmente mayor que el umbral convencional ÿ = 0,05 para la estimado.5
significación estadística si la probabilidad previa de una relación nula supera el 50 %.
Sin embargo, en un trabajo publicado, se desconoce ÿ . Debemos
Estos dos hallazgos son cuantitativa y cualitativamente similares a los por lo tanto calcular
resultados descubiertos por los estudios de replicación a gran escala
mencionados anteriormente, lo que sugiere que el sesgo de publicación
ÿ ÿ ÿÿ
puede explicar gran parte de la "crisis de replicación" que han observado ÿ
EE ÿ ÿ
ÿ
ÿ
ÿ
ÿ ÿ| , t ÿ t ÿ
ÿ
ÿ ÿ
estos estudios.4 Finalmente, encontramos que tanto el sesgo ascendente ÿ ÿ re ÿ
,0.05 ÿ
ÿ
ÿ ÿ ÿ F ÿ ÿÿ
en magnitud y la probabilidad de ser un falso positivo es menor para los
resultados con valores de p más alejados del umbral de significación. ÿ ÿ ÿ ÿ
= EE ÿ ÿ
(2)
Nuestro último hallazgo sugiere que requerir una prueba de significación ÿ ÿ| , t ÿ t ÿ
ÿ
ÿ ÿ
ÿ ÿ
ÿ ÿ
ÿ ÿ d ,0. 05 ÿ
ÿ
ÿ ÿ ÿ F ÿ ÿ ÿ
ser efectivo para combatir el sesgo de publicación (Johnson, 2013).
ÿ ÿ ÿ ÿ
Desafortunadamente, aunque la proporción de falsos positivos publicados = ÿ
ÿ ÿ
mi ÿ
ÿ ÿ| , t ÿ t
ÿ ÿ
ÿ
ÿ
ÿ
ÿ
fd ( ÿ) ÿ ÿ ÿ
se reduciría con esta estrategia (Bayarri et al., 2016; Goodman, 2001), ÿ
ÿ d ,0.05 ÿ ÿ
ÿ F ÿ ÿ
ÿ ÿÿ
(ÿ )
ÿ
signo | ÿ , / ttÿ ÿ ÿ
ÿ
ÿ
ÿ pub
.
ÿ ÿ d ,0.05 ÿ ÿ
ÿ
ÿ ÿ ÿ F ÿ ÿÿ
ÿ complicado. Cualquier medida depende de una suposición sobre el
verdadero valor de ÿ (o una distribución de probabilidad de creencias ÿ
El término signo( ) significa que medimos el grado de sesgo en la dirección
sobre su valor, f ( ) ÿ ). Por ejemplo, considere de la verdadera ÿ (es decir, en función de la distancia de la relación desde
la distribución de estimaciones estadísticamente significativas asociadas
ÿ
cero); esto nos permite medir el grado en que el resultado promedio
ÿ con un valor verdadero de ÿ. Sesgo de publicación ÿ publicado exagera la verdadera magnitud de una relación.6 La estimación
ÿ
ÿ implica que E ÿÿ , tt ÿ0.05
ÿ ÿ| donde tÿ = / es ÿÿ ÿ , ÿ ÿÿ publicada
ÿ escrítico
estadístico t, es elÿvalor el error
ÿ
de estándar
t para unaestimado de de dos colas
significancia ÿÿpub informa nuestra suposición sobre la anterior
ÿÿ, y el
ÿ
t
ÿ
f ( )ÿreconocer que cada proyecto surge de una familia diferente de
ÿ ÿ
d
ÿÿ fÿ
,0.05 ÿ proyectos pertenecientes a diferentes subcampos y temas cuyas
| prueba bajo una hipótesis nula = ÿ0) = 0.05
0 estableciendo
con d f muchos
ÿ = Pr(significativo
grados de magnitudes son difíciles de comparar entre familias.
ÿ libertad. Para Consideramos dos clases de f ( ) ÿ :
Machine Translated by Google
Esarey y Wu 3
(a) una distribución de espiga y losa con una espiga ÿ = 0 tamaños, que son necesarios para nuestro análisis. Por lo tanto,
eliminamos estos 6 artículos de nuestro análisis. En consecuencia,
ÿ ÿ
estudio publicado.
ÿ a partir Por
de ÿf cada sorteo de
ÿ
a la t
ÿ
dos colas ÿ = 0,05 crítico la misma atención, registramos la información de la primera
t=/ ÿ s
ÿ ÿ ÿ ÿ
ÿ d ,0.05 ÿ
ÿ fÿ
hipótesis ("H1" o "la primera hipótesis").
valor de una densidad t con los grados apropiados de libre ÿ
Resultados
dom. Finalmente, calculamos
ÿÿ
ÿ
(ÿ s ÿ
ÿ
ÿ
ÿ ()-
ÿ ÿ signo | (ÿ) ÿ , tÿ t
ÿ
d ,0.05
ÿ
ÿ
ÿ
ÿ
.
ascendente en magnitud, como se ilustra en la Tabla 1. Como
F
ÿ ÿ
ÿ ÿ ÿÿ ÿ ÿÿ
muestra la tabla, si tenemos una expectativa de referencia de que
Luego dividimos esto por el valor absoluto del resultado publicado,
solo El 10 % de nuestras hipótesis predicen correctamente una
para calcular
ÿÿbar el
, porcentaje de sesgo. relación a priori, luego se espera que más del 50 % de los hallazgos
publicados sean al menos un 10 % más grandes en magnitud que
Conjunto de datos
la verdadera relación. El resultado típico publicado en este
escenario es, en promedio, al menos un 29 % mayor que la relación
Estimamos el efecto del sesgo de publicación en la literatura de ciencias
real. Incluso si no hay relaciones que sean exactamente cero bajo
políticas utilizando un nuevo conjunto de datos de trabajos cuantitativos
publicados recientemente en revistas destacadas de interés general. una densidad previa normal (con desviación estándar
ÿÿpub ), más
igual
dela40%
Nuestro conjunto de datos está compuesto por 314 artículos de los resultados publicados tienen un sesgo al alza de ÿ10 % en magnitud.
cuantitativos publicados en American Political Science Review En general, la magnitud del problema del sesgo escala
(APSR: 139 artículos en los volúmenes 102–107, de 2008–2013) y positivamente con la supuesta proporción subyacente de resultados
American Journal of Political Science (AJPS: 175 artículos en los nulos en la población de ideas de investigación ( Pr( ÿ ) = 0 ).
volúmenes 54–57 ). , de 2010 a 2013).9 Para simplificar el análisis, La implicación del análisis es que una parte sustancial de los
analizamos solo artículos con variables dependientes continuas e resultados publicados sobrestiman el tamaño real de la relación que se
ilimitadas. Entre los 173 artículos con variables dependientes está estudiando porque las pruebas de significancia estadística se
continuas e ilimitadas,10 6 artículos tienen al menos un valor utilizan para filtrar los resultados para su publicación. Los sesgos que
faltante con respecto a sus estimaciones o muestra son lo suficientemente grandes como para ser sustancialmente significativos no son
Machine Translated by Google
4 Investigación y Política
Tabla 1. Sesgo esperado en una muestra de efectos marginales publicados de APSR y AJPS.
La tabla muestra la prevalencia estimada del sesgo al alza en la magnitud estimada en una muestra de 167 artículos de la American Political Science Review.
y el Diario Americano de Ciencias Políticas; el tamaño de la muestra es 142 después de que se excluyen 25 resultados estadísticamente insignificantes. Generamos 100.000 sorteos
ÿ ˆ ˆ
ÿ desde ÿ ÿ U ÿ ÿ3
ÿÿ
ÿ pub ,3 ÿ pub
ÿ o
ÿÿ
ÿ ÿ ÿ 0, ÿ ÿ( pub ) con probabilidad (1ÿ p) y
ÿ
ÿ = 0 con probabilidad p para cada estudio publicado; el supuesto
ÿ
ÿ ÿÿ
y 4 enumeran el valor medio de estas réplicas, nuestra estimación de EE ÿ
ÿ
ÿ
ÿ
()-
ÿ (ÿ)
| señal ÿ,t ÿ ÿt
(dF ,0.05 )ÿÿ
ÿ
ÿ
/ ÿ
pub
, en los 142 resultados de la anterior
ÿ ÿÿ
ÿ
ÿ
distribución indicada en el encabezado de la columna. Las columnas 3 y 5 enumeran la proporción correspondiente de estimaciones que son mayores o iguales al 10%.
poco común; si nuestras suposiciones sobre f ( ÿ) son una buena variación entre los resultados publicados, para el anterior normal incluso
representación de la tasa de antecedentes de relaciones nulas, ÿ fuertemente
sin pico en = 0 . Es importante destacar que el sesgo
asociado con el esperado está
valor p publicado
esperaríamos que muchos hallazgos empíricos (quizás incluso del resultado: los valores p más pequeños están asociados con un sesgo
la mayoría) exageren el tamaño de las relaciones verdaderas esperado más pequeño.
que miden. Además, el extremo superior de nuestras Nuestro hallazgo subraya un punto hecho en la declaración de la
estimaciones (es decir, que el valor real de las relaciones Asociación Estadounidense de Estadística sobre los valores de p:
publicadas es en promedio un 40 % más pequeño que su valor "el uso generalizado de 'significación estadística' (generalmente
'
publicado) coincide con las estimaciones empíricas recientes de como
interpretado pÿ 0.05') como una licencia para hacer una
proyectos de réplica a gran escala. Por ejemplo, la Open Science afirmación de un hallazgo científico (o verdad implícita). ) conduce a
Collaboration (OSC) estimó que los tamaños del efecto una distorsión considerable del proceso científico” (Wasserstein y Lazar, 2016: 9).
publicados originalmente en psicología son en promedio
alrededor de un 50 % más pequeños que los tamaños del efecto
Cálculo de
en estudios de replicación de la misma relación (Open Science Collaboration, la susceptibilidad
2015: aac4716- a falsos positivos
3–aac-4716-5). Una réplica similar de 18 estudios de economía
Las pruebas de significancia estadística están diseñadas para
experimental encontró que los tamaños del efecto de la réplica
reducir el riesgo de concluir que existe una relación cuando la
eran en promedio solo el 65,9 % del tamaño de la estimación
evidencia podría ser consistente con ninguna relación en absoluto.
original, una reducción de alrededor del 44 % (Camerer et al.,
Sin embargo, está bien establecido (aunque quizás no se entienda
2016: 1434).14 La mayoría de nuestras estimaciones , sin
ampliamente) que las pruebas de significancia estadística a
embargo, muestran un sesgo medio menor; esto sugiere que (a)
menudo son insuficientes para reducir la posibilidad de un falso
la proporción de resultados nulos en la población de estudios es
positivo a un nivel aceptable cuando la probabilidad previa de
más alta de lo que contemplamos, o (b) otros factores (selección
estudiar una relación nula es muy alta (Bayarri et al. , 2016;
oportunista del modelo por parte de los investigadores originales,
Goodman, 2001; Nuzzo, 2014; Siegfried, 2010). Un factor clave es
un sesgo contra el éxito entre los investigadores que realizan la
la probabilidad previa de que la hipótesis nula sea cierta (es decir,
replicación, y/o muchas posibilidades alternativas) pueden estar
la expectativa a priori de que la relación que se estudia no existe realmente). Es dec
trabajando en conjunto con el sesgo de publicación para explicar
los resultados empíricos previos. PR ( )ÿ| = 0 Estadísticamente significante =
No todas las publicaciones son igualmente susceptibles al sesgo,
Pr( sig. est. | ÿ)Pr(= )0 0 ÿ =
como se ve en la Figura 1. La figura muestra que los resultados (3)
D
individuales varían mucho en términos del sesgo de publicación
= 0 nulo
. D = Pr( sig. est. ÿ =0 ÿ = +0 )
esperado, independientemente de la probabilidad previa de un ÿefecto Pr( )
De hecho, la Figura 1(d) muestra un sesgo sustancial y | Pr( sig. est. | ÿ )Pr( 0 1ÿ ÿ ÿ = 0 ))
)( Pr(
Machine Translated by Google
Esarey y Wu 5
Figura 1. Histograma de cálculos de sesgo esperado de APSR y AJPS. (a) Previa de espiga y losa, Pr( ÿ ) =10%. (b) Pico y anterior ÿ 0
normal, Pr( ÿ ) = 100%. (d)
ÿ ÿ ) 0=10%
Normal previa, Pr( ÿ ) =100% . Cada histograma
. (c) muestraPr(
Previo uniforme, la proporción
ÿ de 0
artículos
American en una of
Journal muestra
PoliticaldeScience
167 artículos de 0
ÿ American
correspondientes
tamaño a Political
deun
la grado Science
muestrade es
sesgoReview
142 y de
esperado;
después el
que se excluyen 25 resultados estadísticamente insignificantes.
ÿ ÿ ÿÿ
(ÿ ) ÿ , t ÿ
ÿ
Sesgo esperado EE ÿ ÿ
ÿ
ÿ ÿ | señal t ÿ
ÿ
/ÿ
ÿ se calcula utilizando la densidad previa indicada en la subfigura
()- ÿ ÿ pub
ÿ re ,0.05 ÿ ÿ
ÿ ÿ F ÿ ÿÿ
ÿ
ÿ
y el procedimiento descrito en la Tabla 1. El color de la barra indica un valor p de resultado publicado en el rango indicado por la leyenda de la subfigura.
Podemos usar esta fórmula para calcular esta probabilidad para Como muestra la figura, no todos los trabajos publicados tienen
las observaciones en nuestro conjunto de datos; esto es similar a la misma probabilidad esperada de ser un falso positivo. Los
un cálculo que Goodman (2001) y Bayarri et al. (2016) realizado resultados que están cerca del límite de la significación estadística (con
utilizando factores de Bayes y una fórmula estrechamente p ÿ 0.05) tienen la mayor probabilidad esperada de ser un
relacionada ofrecida por Maniadis et al. (2014). Para establecer falso positivo. Los resultados que están más lejos de este
ÿ la probabilidad
un límite inferior parasig.|
Pr(
previa
deÿ) ,0la
establecemos
Pr(
=ecuación
1 =para
0 a maximizar
unPr(
(3).
valor
Pr(
)Luego
= =0fijo
0|sig.stat
el )para
ÿ|stat.sig.
yestablecemos
denominador
calculado
rango de
, stat.
Pr
un límite (por ejemplo, donde pÿ0.01 ) tienen un riesgo
(sig.stat| ÿ = 0) ÿ sustancialmente menor de ser falsos positivos. Este hallazgo
ÿ ) es consistente con el trabajo anterior de Open Science
ÿ Collaboration (2015: aac4716-5), cuyas replicaciones de
[0,0.05]. Los resultados para cuatro valores diferentes de Pr( ÿ =) se0 hallazgos notables en psicología descubrieron que “una
muestran en la Figura 2; el histograma de esta figura indica la correlación negativa del éxito de la replicación con el valor p
distribución de los valores p (es decir, el valor de Pr( ) stat. sig.| = del estudio original indica que la fuerza inicial de la evidencia
0 ) en nuestro ÿconjunto de datos. predice la reproducibilidad”. Camarer et al. (2016: 1435) encuentran la mis
Machine Translated by Google
6 Investigación y Política
Figura 2. Cálculos de probabilidad de falsos positivos de límite inferior esperados. La figura muestra la relación entre la probabilidad
que la hipótesis nula es verdadera dado un resultado estadísticamente significativo ( )Pr( ) en
nulo|st.
función
sig.de la probabilidad de obtener un resultado estadísticamente
entre los valores de p y la replicabilidad. El hallazgo es solo el 49 % de los intentos de replicación pudieron replicar
consistente con los cálculos de Goodman (2001) y Bayarri et por completo los hallazgos originales de un estudio. En
al. (2016), quien muestra que valores de p más bajos se economía, Camerer et al. (2016) pudieron replicar con éxito
asocian con mayores reducciones en la probabilidad posterior solo 11 de los 18 estudios que examinaron, una tasa de éxito
de la hipótesis nula (en relación con su probabilidad previa). del 61 %. Incluso en medicina, un estudio reciente de Prinz et
La figura 2 indica que nuestra preocupación sobre la probabilidad al. (2011) encontraron que su laboratorio solo pudo replicar
de un falso positivo debe estar relacionada geométricamente con completamente entre el 20% y el 25% del trabajo publicado examinado.
ÿ resultado.
nuestra creencia previa acerca derelacionada
Pr( ) Cuando
= 0 y casi
conPr(
el
linealmente
)valor
= 0 ÿ0.5,
p de la
un
probabilidad de un falso positivo ÿnunca
= 0 =cálculo.
supera
0,75, calculamos
elSin
5% embargo,
en nuestro
quesiÿ10,6
Pr( )
Conclusiones y consecuencias
% de los resultados publicados en nuestros datos tienen Pr( ) = 0 |
stat. sig.ÿ ÿ10%. El problema del sesgo de publicación ha sido estudiado durante
ÿ años y permea todas las disciplinas científicas que utilizan
Cuando Pr( ÿ = 0 = 0,9
) ÿ25.4% de los, resultados publicados en nuestro evidencia estadística (Rosenthal, 1979; Sterling et al., 1995). El
conjunto de datos tienenÿPr(Pr() =) =0 0|stat.
|stat.sig.
sig.
deÿestos
ÿ10%
10% resultados
. si
MásPr(del
) 40%
tienen interés en el problema se ha reavivado por el esfuerzo de
ÿ replicar los resultados en múltiples disciplinas que han tenido
ÿ = 0 = 0,95. Nuestro hallazgo puede explicar por qué tantos una tasa de fracaso sorprendentemente alta (Boekel et al.,
resultados no se replican. Por ejemplo, Open Science 2015; Camerer et al., 2016; Hartshorne y Schachner, 2012;
Collaboration pudo replicar con éxito solo 39 de 100 relaciones Ioannidis et al. , 2014; Klein et al., 2014; Maniadis et al., 2014;
de la literatura de psicología que probó en su estudio (Open Open Science Collaboration, 2015). Trabajos anteriores han
Science Collaboration, 2015: aac 4716-5). Una encuesta de establecido que los resultados estadísticamente significativos
investigadores en psicología y campos afines realizada por son favorecidos en ciencia política (p. ej., Gerber y Malhotra,
Hartshorne y Schachner (2012: 3) encontró que 2008a), pero ¿en qué medida distorsiona el conocimiento sustantivo en la ciencia
Machine Translated by Google
Esarey y Wu 7
¿disciplina? ¿Están nuestros hallazgos contaminados por resultados significativo, porque los resultados marginalmente significativos
sesgados hacia arriba en magnitud? ¿Los resultados de falsos tienen un mayor riesgo de ser falsos positivos. En consecuencia,
positivos se publican con demasiada frecuencia en esa literatura? puede ser prudente dar menos importancia a la novedad y
Las respuestas dependen de la distribución previa desconocida de originalidad de la producción de un académico al evaluar su
las verdaderas relaciones. Pero encontramos evidencia de ambos contribución a la disciplina—¡reconociendo, por supuesto, que
problemas en la literatura de ciencia política publicada, y los estas siguen siendo cualidades importantes y valiosas!—y más
problemas son lo suficientemente grandes como para ser importancia al trabajo que comprueba la solidez de los hallazgos
cualitativamente significativos bajo una amplia variedad de existentes, incluidos los estudios de replicación. También
distribuciones previas diferentes. Si estos problemas existen, debemos tener cuidado de permitir que el descubrimiento inicial
ocurren porque se favorecen los resultados estadísticamente de un nuevo fenómeno dé forma a nuestra agenda de
significativos en el proceso de publicación: los valores más pequeños investigación antes de que el fenómeno se replique
en la distribución de muestreo de una estimación se ignoran de completamente. En el caso de que el descubrimiento sea un
manera desproporcionada y es probable que se publiquen relaciones falso positivo, los investigadores que busquen aplicar los
nulas (Brodeur et al., 2016; Coursol y Wagner, 1986). ; Gerber et hallazgos a otras áreas necesariamente construirán su trabajo
al., 2001; Gerber y Malhotra, 2008a,b; Sterling et al., 1995). ÿ
sobre un hallazgo nulo, lo que aumentará la probabilidadgeneral
previa
Creemos que nuestro artículo complementa los hallazgos de los de hipótesis nulas (es decir, Pr( = 0)) en la población y empeora
proyectos de replicación a gran escala colocándolos en un contexto aún más el problema general del sesgo de publicación. Creemos
teórico más claro: bajo suposiciones razonablesÿ para, previa
la distribución
de los que estos cambios constituyen una revisión sustancial del
efectos f ( ) , los resultados de estos estudios son los que deberíamos status quo, pero que es importante para salvaguardar la
esperar dada (a) la existencia de un proceso de publicación que confiabilidad de los hallazgos que nos comunicamos entre
favorece resultados estadísticamente significativos y (b) la nosotros, a nuestros estudiantes y al resto del mundo.
distribución de los resultados publicados en la literatura. En resumen,
nuestros hallazgos sugieren que el sesgo de publicación es una Agradecimientos
explicación razonable de al menos parte de la “crisis de replicación”.
Agradecemos a Ashley Leeds, Will H. Moore, Cliff Morgan, Ric
Según nuestra evidencia, los resultados con valores de p más
Stoll, a nuestros revisores anónimos y a los participantes de
pequeños se ven menos afectados por el sesgo de publicación nuestras sesiones en la Reunión Anual de 2013 de la Asociación
porque están más alejados del umbral ÿ = 0,05. Estos resultados
Estadounidense de Ciencias Políticas y la Reunión Anual de
también tienen un menor riesgo de ser un falso positivo (Bayarri et 2013 de la Sociedad de Metodología Política por sus útiles
al., 2016; Goodman, 2001). Sin embargo, usar un umbral reducido comentarios y sugerencias.
para la significancia estadística (es decir, publicar solo los resultados
que pueden pasar una prueba de significancia con ÿ inferior a 0,05), Fondos
como sugiere Johnson (2013), simplemente recrea el problema para
los resultados cercanos al nuevo umbral. Considere las simulaciones de Esta investigación no recibió una subvención específica de ninguna agencia de
la Tabla 1
financiación en los sectores público, comercial o sin fines de lucro.
ÿ %
para el previo de punta y losa cuando Pr( ) = 0 = 90 el uso
: de un umbral de
significación de ÿ = 0,01 da como resultado que el 66,9 % de las estimaciones
Material suplementario
excedan el 10 % de magnitud en el sesgo (en comparación con el 87,3 %
de las estimaciones que utilizan el valor de ÿ = 0,01). umbral de 0,05). Los archivos de replicación están disponibles en: https://dataverse.harvard.
edu/dataverse/researchandpolitics. Los archivos complementarios
)
ÿ Pr( = 0 = 0% bajo el mismo anterior, usando una significación
Cuando
El umbral de ÿ = 0,01 da como resultado que el 20,4 % de las estimaciones están disponibles en: http://rap.sagepub.com/content/3/3
8 Investigación y Política
Colaboración (2015). Esta explicación alternativa ha sido criticada por los en la disciplina en lugar de para todos los resultados publicados.
autores del estudio OSC (Anderson et al., 2016; Lakens, 2016), así como por Teóricamente, esperaríamos una agrupación dentro del artículo del sesgo de
Srivastava (2016). publicación para múltiples resultados presentados en el mismo artículo por
ÿ ÿ una variedad de razones: los resultados provienen del mismo conjunto de
5. Tenga en cuenta que E ÿ ÿ | ÿ
, tÿ tÿ ÿ
ÿ
ÿ es diferente a datos o modelo, están escritos por los mismos autores usando las mismas
ÿ ÿ
ÿ
d ,0,05 ÿ
ÿÿ ÿ
ÿ ÿ
ÿ ÿ
ÿ ÿÿ F ÿ ÿ Tabla 2); esto puede deberse a que los autores eligieron deliberadamente
porque nuestra comprensión del significado de “sesgo de publicación” es una algunos hallazgos que se sabe que son sólidamente replicables además de
divergencia persistente entre la media de las estimaciones publicadas ÿ hallazgos más nuevos con replicabilidad desconocida.
(estadísticamente significativas) y el valor real
ÿ verdadero
de ÿ. Por lo
valor
tanto,
de fijamos
ÿy el
examinamos la distribución de las estimaciones asociadas. Exploramos este
ÿ
mi ÿ
ÿ ÿ| , _ÿ
ÿ
ÿ
por
pub pub ÿ ÿ Se eliminó el cargo por procesamiento de artículos de acceso abierto (APC) para
ÿ ÿ ÿ d ,0.05
ÿ ÿ F ÿ
ÿ
ÿ
hallazgos publicados ÿ este artículo debido a una subvención otorgada a Research & Politics de Carnegie
ÿ pub .
Corporation de Nueva York en el marco de su iniciativa "Bridging the Gap". Las
6. Establecemos sign(ÿ= 0= 1 . )
7. Por ejemplo, si cambiamos la losa uniforme para que oscile entre declaraciones hechas y las opiniones expresadas son responsabilidad exclusiva de
ÿÿ 10
ÿ ÿ
ÿ los autores.
ÿ ÿ con un Pr( 0 ÿ ) total del
ÿ 10%,
ÿÿ
ÿÿ bares ,10 pub
cuantitativos publicados en un solo número de la AJPS que en el de la APSR. Brodeur A, Le M, Sangnier M, et al. golpear de vuelta. Diario económico
Queremos equilibrar la estadounidense: Economía aplicada 8 (1): 1–32.
número de artículos recopilados de ambas revistas, al mismo tiempo que Camerer CF, Dreber A, Forsell E, et al. (2016) Evaluación de la replicabilidad de
recopila información de artículos publicados recientemente. Centrarse en los experimentos de laboratorio en economía. Ciencia
artículos publicados en el APSR de 2008 a 2013 también nos permite 351 (6280): 1433–1436.
contribuir a la literatura al introducir un nuevo conjunto de datos, dado que el Coursol A y Wagner EE (1986) Efecto de los hallazgos positivos en las tasas de
período de tiempo del conjunto de datos de Gerber y Malhotra (2008a) es de presentación y aceptación: una nota sobre el sesgo del metanálisis. Psicología
1995 a 2007. profesional: investigación y práctica 17: 136–137.
10. Un total de 138 artículos en nuestro conjunto de datos tienen variables
dependientes discretas y tres artículos tienen variables continuas pero acotadas. Franco A, Malhotra N y Simonovits G (2014) Sesgo de publicación en las ciencias
Esarey y Wu 9
Gerber AS y Malhotra N (2008b) Métodos sociológicos y sesgo de publicación en Maniadis Z, Tufano F y List JA (2014) Una golondrina no hace verano: nueva
la investigación sociológica empírica: ¿los niveles de significación arbitrarios evidencia sobre los efectos de anclaje.
distorsionan los resultados publicados? Métodos e investigación sociológicos Revisión económica estadounidense 104 (1): 277–290.
37 (3): 3–30. Nuzzo R (2014) Errores estadísticos. Naturaleza 506: 150–152.
Gerber AS, Green DP y Nickerson D (2001) Pruebas de sesgo de publicación en Open Science Collaboration (2015) Estimación de la reproducibilidad de la ciencia
ciencias políticas. Análisis político: 385–392. psicológica. Ciencia 349 (6251): 943.
Peng R (2015) La crisis de reproducibilidad en la ciencia: un contraataque
Gilbert DT, Gary K, Pettigrew S, et al. (2016) Comentario sobre 'Estimación de la estadístico. Importancia 12(3): 30–32.
reproducibilidad de la ciencia psicológica'. Prinz F, Schlange T y Khusru A (2011) Créalo o no: ¿Cuánto podemos confiar en
Ciencia 351 (6277): 1037. los datos publicados sobre posibles objetivos de drogas? Nature Reviews
Goodman SN (2001) De p-valores y Bayes: Una propuesta modesta. Drug Discovery 10: 712.
Epidemiología 12(3): 295–297. Rosenthal R (1979) El problema del archivador y la tolerancia a los resultados nulos.
Hartshorne JK y Schachner A (2012) Seguimiento de la replicabilidad como método Boletín Psicológico 86: 638–641.
de evaluación abierta posterior a la publicación. Fronteras en neurociencia Scargle JD (2000) Sesgo de publicación: el problema del "cajón de archivos" en la
computacional 6 (8): 1–14. inferencia científica. Revista de exploración científica 14: 91–106.
Ioannidis JP, Munafo MR, Fusar-Poli P, et al. (2014) Publicación y otros sesgos de Siegfried T (2010) Lo más probable es que esté mal. Noticias científicas 177 (7): 26.
informes en ciencias cognitivas: detección, prevalencia y prevención. Simonsohn U, Nelson LD y Simmons JP (2014) Curva P: Una llave para el cajón del
Tendencias en Ciencias Cognitivas archivo. Revista de Psicología Experimental: General 143 (2): 534–547.
18(5): 235–241.
Ioannidis JPA (2005) Por qué la mayoría de los hallazgos de investigación publicados son Srivastava S (2016) Evaluación de una nueva crítica del proyecto de reproducibilidad.
falso. Medicina PLoS 2: 696–701. Disponible en: https://hardsci.wordpress.
Ioannidis JPA (2008) Por qué la mayoría de las asociaciones verdaderas com/2016/03/03/evaluating-a-new-critique-of-the-repro ducibility-project/
descubiertas están infladas. Epidemiología 19: 640–648. (consultado el 30 de agosto de 2016).
Johnson VE (2013) Estándares revisados para evidencia estadística. Sterling T, Rosenbaum WL y Winkam JJ (1995) Decisiones de publicación revisadas:
Actas de la Academia Nacional de Ciencias 110 (48): 19313–19317. El efecto del resultado de la estadística
replicabilidad. Psicología Social 45(3): 142–152. Steward O, Popovich PG, Dietrich W, et al. (2012) Replicación y reproducibilidad en
la investigación de lesiones de la médula espinal. Neurología Experimental
Lakens D (2016) Las conclusiones estadísticas de Gilbert (2016) son completamente 233: 597–605.
inválidas. Disponible en: http://daniellakens.blogs pot.com/2016/03/the- Wasserstein RL y Lazar NA (2016) La declaración de la ASA sobre valores p:
statistical-conclusions-in-gilbert.html (consultado el 30 de agosto de 2016). contexto, proceso y propósito. El Estadístico Americano.