Está en la página 1de 9

Un problema significativo

Los métodos científicos estándar están bajo fuego. ¿Cambiará algo?


En 1925 el genetista y estadístico británico Ronald Fisher publicó un libro llamado Métodos
estadísticos para los trabajadores de la búsqueda. El título no grita "best seller", pero el libro
fue un gran éxito y estableció a Fisher como el padre de la Estadística. En él, aborda el
problema de cómo los investigadores pueden aplicar pruebas estadísticas a datos numéricos
para sacar conclusiones sobre lo que han encontrado y determinar si vale la pena perseguirlo.
Hace referencia a una prueba estadística que resume la compatibilidad de los datos con un
modelo propuesto y produce un p-valor. Fisher sugiere que los investigadores podrían
considerar un valor de 0.05 como una guía práctica: "Es conveniente tomar este punto como
un límite para juzgar si una desviación debe considerarse significativa o no". Persiga los
resultados con p-valores por debajo de p ese umbral, aconseja, y no pasar tiempo en los
resultados p que caen por encima de él. Así nació la idea de que un p-valor menor de 0,05
equivale a lo que se conoce como significación estadística: una definición matemática de
resultados "significativos".

Casi un siglo después, en muchos campos de la investigación científica, un p-valor menor de


0,05 se considera el “estándar de oro” para determinar el mérito de un experimento. Abre las
puertas a lo esencial de la academia —financiación y publicación— y, por lo tanto, sustenta la
mayoría de las conclusiones científicas publicadas. Sin embargo, incluso Fisher entendió que
el concepto de significancia estadística y del p-valor que lo sustenta tiene limitaciones
considerables. La mayoría han sido reconocidos durante décadas. "La excesiva dependencia
de las pruebas de significación", escribió el psicólogo Paul Meehl en 1978, "es una mala
manera de hacer ciencia". Los p-valores son regularmente malinterpretados, y la significancia
estadística no es lo mismo que la importancia práctica. Además, las decisiones metodológicas
requeridas en cualquier estudio hacen posible que un experimentador, consciente o
inconscientemente cambie el p-valor hacia arriba o abajo. "Como se suele decir, se puede
probar cualquier cosa con Estadística", dice el estadístico y epidemiólogo Sander Greenland,
profesor emérito en la Universidad de California, Los Angeles, y una de las principales voces
para la reforma. Los estudios que se basan sólo en lograr significancia estadística o señalar
su ausencia regularmente dan lugar a afirmaciones inexactas, muestran que las cosas son
verdaderas cuando son falsas y las cosas que son falsas y cuando son verdaderas. Después
de que Fisher se había retirado a Australia, se le preguntó si había algo en su larga carrera
que lamentaba. Se dice que se chasqueó, "Alguna vez mencioné 0.05."

En la última década, el debate sobre la significación estadística ha estallado con una


intensidad inusual. Una publicación llamó a la endeble base del análisis estadístico "el secreto
más sucio de la ciencia". Otro citado "numerosos defectos profundos" en las pruebas de
significancia. La economía experimental, la investigación biomédica y la psicología en especial
se han visto envueltas en una polémica crisis de replicación, en la que se ha revelado que un
porcentaje sustancial de los hallazgos publicados no son reproducibles. Uno de los ejemplos
más notorios es la idea de la pose de poder, la afirmación de que el lenguaje corporal asertivo
cambia no sólo su actitud, sino sus hormonas, que se basó en un artículo que desde entonces
ha sido repudiado por uno de sus autores. Un artículo sobre la economía del cambio climático
(por un escéptico) "terminó teniendo casi tantas correcciones de errores como datos, ¡no es
broma!, pero ninguna de estas correcciones de errores fue suficiente para que cambiara su
conclusión", escribió el estadístico Andrew Gelman, de la Universidad de Columbia, en su
blog, donde regularmente lleva a los investigadores a la tarea por trabajo de mala calidad y
una falta de voluntad para admitir los problemas en sus estudios. "Oye, está bien hacer un
trabajo puramente teórico, pero luego no hay necesidad de distraernos con datos", escribió
Gelman.

El concepto de significancia estadística, aunque no es el único factor, ha surgido como una


parte obvia del problema. En los últimos tres años, cientos de investigadores han pedido
urgentemente reformas, redacción o aprobación de artículos en prestigiosas revistas sobre la
redefinición de la significancia estadística o su abandono por completo. La Asociación
Americana de Estadística (ASA), que publicó una declaración fuerte e inusual sobre el tema
en 2016, argumenta: "moverse un mundo más allá de p< 0.05". Ronald Wasserstein, el
director ejecutivo de ASA, lo pone de esta manera: "Se supone que la significación estadística
es como un golpe a la derecha en Tinder. Indica sólo un cierto nivel de interés. Pero
desafortunadamente, eso no es lo que significación estadística se ha convertido. La gente
dice: 'Tengo 0,05, estoy bien'. La ciencia se detiene."

La pregunta es si algo cambiará. "Nada es nuevo. Eso necesita sobriedad sobre la perspectiva
de que quizás esta vez sea la misma que otras veces", dice el economista del comportamiento
Daniel Benjamin de la Universidad del Sur de California, otra voz para la reforma. Aun así,
aunque no están de acuerdo sobre los remedios, es sorprendente cuántos investigadores
están de acuerdo, como escribió el economista Stephen Ziliak, en que "la cultura actual de
pruebas de significación estadística, interpretación y reportes va en esa dirección".

EL MUNDO TAL COMO ES

El objetivo de la ciencia es describir lo que es verdadero en la naturaleza. Los científicos


utilizan modelos estadísticos para inferir esa verdad, para determinar, por ejemplo, si un
tratamiento es más eficaz que otro o si un grupo difiere de otro. Cada modelo estadístico se
basa en un conjunto de suposiciones sobre cómo se recopilan y analizan los datos y cómo los
investigadores eligen presentar sus resultados.

Esos resultados casi siempre se centran en un enfoque estadístico llamado pruebas de


significación de hipótesis nula, que produce una p-valor. Esta prueba no aborda la verdad
de frente, la mira oblicuamente. Esto se debe a que las pruebas de significancia están
destinadas a indicar sólo si vale la pena seguir investigando. "Lo que queremos saber
cuando llevamos a cabo un experimento es cuán probable es [nuestra] que la hipótesis sea
verdadera", dice Benjamin. "Pero [pruebas de significancia] las respuestas a una pregunta
alternativa enrevesada, es, si mi hipótesis fuera falsa, ¿cuán improbables serían mis datos?"

A veces esto funciona. La búsqueda del bosón de Higgs, una partícula teorizada por los físicos
en la década de 1960, es un ejemplo extremo pero útil. La hipótesis nula era que el bosón
de Higgs no existía; la hipótesis alternativa era que debía existir. Los equipos de físicos del
Gran Colisionador de Hadrones del CERN ejecutaron múltiples experiments y obtuvieron el
equivalente de un p-valor tan vagamente pequeño que significaba la posibilidad de que se
produjeran sus resultados si el bosón de Higgs no existía era uno de cada 3,5 millones. Eso
hizo que la hipótesis nula sea insostenible. A continuación, se comprueban dos veces para
asegurarse de que el resultado no fue causado por un error. "La única manera de que usted
pudiera estar seguro de la importancia científica de este resultado, y el Premio Nobel, fue
haber informado de que [ellos] pasaron por aros de fuego para asegurarse de que [ninguno]
de los problemas potenciales podrían haber producido un pequeño valor", dice Greenland.
"Un diminuto valor está diciendo que el Modelo Estándar sin el bosón de Higgs [no puede ser
correcto]. Está gritando a ese nivel".

Pero la física permite un nivel de precisión que no es alcanzable en otros lugares. Cuando
estás usando personas, como en psicología, nunca lograrás probabilidades de uno de cada
tres millones. Un p-valor de 0.05 pone las probabilidades de rechazo repetido de una hipótesis
correcta a través de muchas pruebas en uno en 20. (No indica, como se suele creer, que la
probabilidad de error en una sola prueba sea del 5 por ciento.) Es por eso que los estadísticos
hace mucho tiempo agregaron "intervalos de confianza", como una manera de proporcionar
una idea de la cantidad de error o incertidumbre en las estimaciones hechas por los científicos.
Los intervalos de confianza se relacionan matemáticamente con los p-valores. Los p-valores
se ubican desde 0 a 1. Si resta 0,05 de 1, obtendrá 0,95, o 95 por ciento, el intervalo de
confianza convencional. Pero un intervalo de confianza es simplemente una forma útil de
resumir los resultados de las pruebas de hipótesis para muchos tamaños de efectos. "No
hay nada en ellos que deba inspirar confianza", dice Greenland. Sin embargo, con el tiempo
ambos, p-valores y los intervalos de confianza se apoderaron, ofreciendo la ilusión de
certeza.

Los p-valores en sí mismos no son necesariamente el problema. Son una herramienta útil
cuando se consideran en contexto. Eso es lo que los editores de revistas, los financiadores y
reguladores científicos afirman que hacen. La preocupación es que la importancia de la
significación estadística podría ser exagerada o sobreestimada, algo que es especialmente
fácil de hacer con muestras pequeñas. Eso es lo que llevó a la crisis actual de replicación. En
2015 Brian Nosek, cofundador del Center for Open Science, encabezó un esfuerzo para
replicar 100 artículos prominentes de psicología social, que encontraron que sólo el 36,1 por
ciento podría ser replicado de manera ambigua. En 2018, el Proyecto de Replicación de
Ciencias Sociales volvió a ser objeto de réplicas directas de 21 estudios experimentales en
las ciencias sociales publicados en Nature y Science entre 2010 y 2015. Encontraron un efecto
significativo en la misma dirección que en el estudio original para 13 (62 por ciento) de los
estudios, y el tamaño del efecto de las replicaciones fue en promedio aproximadamente la
mitad del tamaño del efecto original.

La genética también tuvo una crisis de replicación a principios y mediados de la década de


2000. Después de mucho debate, el umbral de significación estadística en ese campo se
redujo drásticamente. "Cuando se encuentra un nuevo descubrimiento de una varianza
genética relacionada con alguna enfermedad u otro fenotipo, el estándar de significancia
estadística es de 5 x 10-8, que es básicamente 0,05 dividido por un millón", dice Benjamin,
que también ha trabajado en genética. "La generación actual de estudios de genética humana
se considera muy sólida".

No se puede decir lo mismo de la investigación biomédica, donde el riesgo tiende a los falsos
negativos, con los investigadores que no reportan significación estadística cuando existen
efectos. La ausencia de evidencia no es evidencia de ausencia, así como la ausencia de un
anillo de bodas en la mano de alguien no es una prueba de que la persona no está casada,
sólo prueba de que la persona no lleva un anillo. Estos casos a veces terminan en los
tribunales cuando la responsabilidad es corporativa y la seguridad de los consumidores está
en juego.

LÍNEAS BRILLANTES BORROSAS

¿Cuántos PROBLEMAS tiene la ciencia? Hay un acuerdo bastante amplio entre los científicos
en muchas disciplinas que malinterpretación y énfasis excesivo en los p-valores y la
significancia estadística son problemas reales, aunque algunos son más leves en su
diagnóstico de su gravedad que otros. "Yo tomo la visión larga", dice el psicólogo social Blair
T. Johnson, de la Universidad de Connecticut. "La ciencia hace esto regularmente. El péndulo
oscilará entre los extremos, y tienes que vivir con eso". El beneficio de esta ronda, dice, es
que es un recordatorio de ser modesto acerca de las inferencias. "Si no tenemos humildad
como eruditos, no vamos a seguir adelante".

Sin embargo, para seguir adelante, los científicos deben ponerse de acuerdo en las
soluciones. Eso es casi tan difícil como la práctica de Estadística en sí misma. "El temor es
quitar esta práctica establecida desde hace mucho tiempo, de ser capaz de declarar las cosas
como estadísticamente significativas o no introduciría algún tipo de anarquía en el proceso",
dice Wasserstein. Aún así, abundan las sugerencias. Incluyen cambios en los métodos
estadísticos, en el lenguaje utilizado para describir esos métodos y en la forma en que se
utilizan los análisis estadísticos. Las ideas más prominentes se han expuesto en una serie de
artículos que comenzaron con la declaración de ASA en 2016, en la que más de dos docenas
de estadísticos acordaron varios principios para la reforma. Esto fue seguido por un número
especial de una de las revistas de la asociación que incluía 45 artículos sobre maneras de ir
más allá de la significación estadística.

En 2018, un grupo de 72 científicos publicó un comentario llamado "Redefine Statistical


Significance" en Nature Human Behaviour, indicando un cambio en el umbral de significación
estadística de 0.05 a 0.005 para reclamos de nuevos descubrimientos. (Los resultados entre
0,05 y 0,005 se llamarían "sugerentes").") Benjamin, el autor principal de este artículo, ve esto
como una solución imperfecta a corto plazo, pero como una solución que podría
implementarse inmediatamente. "Mi preocupación es que si no hacemos algo de inmediato,
perderemos el impulso de hacer el tipo de cambios más grandes que realmente mejorarán las
cosas, y terminaremos pasando todo este tiempo discutiendo sobre la solución ideal. Mientras
tanto, habrá mucho más daño que se hace". En otras palabras, no dejes que lo perfecto sea
el enemigo del bien.

Otros dicen que redefinir la significación estadística no sirve para nada porque el verdadero
problema es la existencia misma de un umbral. En marzo, Greenland de UCLA., Valentin
Amrhein, zoólogo de la Universidad de Basilea y Blakeley McShane, un estadístico y experto
en marketing en la Universidad Northwestern, publicaron un comment en Nature que abogaba
por abandonar el concepto de significación estadística. Sugieren que los p-valores sean
utilizados como una variable continua entre otras pruebas y que los intervalos de confianza
se renombren como "intervalos de compatibilidad" para reflejar lo que realmente señalan:
compatibilidad con los datos, no confianza en el resultado. Solicitaron apoyo para sus ideas
sobre Twitter. Ochocientos científicos, incluido Benjamin, firmaron.

Los métodos estadísticos están disponibles de forma clara, mejor, o al menos más sencillo.
Gelman, que frecuentemente critica los enfoques estadísticos de otros, no utiliza pruebas de
significación de hipótesis nulas en su trabajo en absoluto. Prefiere la metodología bayesiana,
un enfoque estadístico más directo en el que se toma las creencias iniciales, añade nuevas
pruebas y actualiza las creencias. Greenland está promoviendo el uso de una “surprisal”, una
cantidad matemática p-valores para producir bits (como en bits de computadora) de
información. Un p-valor de 0.05 es sólo 4.3 bits de información contra la nulidad de una
hipótesis. "Eso es el equivalente a ver cuatro caras seguidas si alguien lanza una moneda",
dice Greenland. "¿Es tanta evidencia en contra de la idea de que el lanzamiento de monedas
fue justo? No. Verás qué ocurre todo el tiempo. Es por eso que 0.05 es un estándar tan débil".
Si los investigadores tuvieran una sorpresa al lado de cada p-valor, argumenta, se sujetarán
a un nivel más alto. Un énfasis en los tamaños de los efectos, que hablan de la magnitud de
las diferencias encontradas, también ayudaría.

Mejorar la educación estadística tanto para los científicos como para el público podría
comenzar con la elaboración del lenguaje de estadísticas más accesible. Cuando Fisher
abrazó el concepto de "significación", la palabra tenía menos peso. "Significaba 'significando'
pero no 'importante', dice Greenland. Y no es de extrañar que el término "intervalos de
confianza" tienda a infundir una indebida confianza.

EL ABRAZO DE LA INCERTIDUMBRE

La SIGNIFICANCIA ESTADÍSTICA ha alimentado la necesidad humana de certidumbre. "El


pecado original es que la gente quiere certeza cuando no es apropiado", dice Gelman. Puede
que haya llegado el momento de sentarnos con la incomodidad de no estar seguros. Si
podemos hacer eso, la literatura científica se verá diferente. Un informe sobre un hallazgo
importante "debería ser un párrafo, no una frase", dice Wasserstein. Y no debería basarse en
un solo estudio. En última instancia, una teoría exitosa es aquella que se enfrenta
repetidamente a décadas de escrutinio.

Pequeños cambios están ocurriendo entre los poderes que hay en la ciencia. "Estamos de
acuerdo en que los p-valores a veces se usan en exceso o se maltratan", dice Jennifer Zeis,
portavoz del New England Journal of Medicine. "Concluyendo que un tratamiento es eficaz
para un resultado si p < 0.05 e ineficaz si > 0.05 es una visión reduccionista de “p” en la
medicina y no siempre refleja la realidad." Ella dice que sus informes de investigación ahora
incluyen menos p-valores, y más resultados se reportan con intervalos de confianza sin p-
valores. La revista también está adoptando los principios de la ciencia abierta, como la
publicación de protocolos de investigación más detallados y la necesidad de que los autores
sigan planes de análisis preespecificados e informen cuando se desvían de ellos.

En la Administración de Alimentos y Medicamentos de los Estados Unidos, no ha habido


ningún cambio en los requisitos en los ensayos clínicos, según John Scott, director de la
División de Bioestadística. "Creo que es muy poco probable que los p-valores desaparecerán
pronto del desarrollo de drogas en cualquier momento, pero preveo una aplicación cada vez
mayor de enfoques alternativos", dice. Por ejemplo, ha habido un mayor interés entre los
solicitantes en el uso de la inferencia bayesiana. "El debate actual refleja generalmente una
mayor conciencia de algunas de las limitaciones de la inferencia estadística como se practica
tradicionalmente".

Johnson, que es el editor entrante en Psychological Bulletin, se ha visto cara a cara con el
editor actual, pero dice: "Tiendo a forzar la conformidad con estándares de informes bastante
estrictos. De esta manera estoy seguro de que todo el mundo sabe lo que pasó y por qué, y
pueden juzgar más fácilmente si los métodos son válidos o tienen defectos". También destaca
la importancia del metaanálisis bien ejecutado y revisiones sistemáticas como formas de
reducir la dependencia de los resultados de estudios individuales.

Lo más crítico es que un p-valor "No debería ser un portero*", dice Mc Shane p. "Tomemos
una visión más holística, matizada y evaluativa." Eso fue algo que incluso los contemporáneos
de Ronald Fisher apoyaron. En 1928 otros dos gigantes de Estadísticas, Jerzy Neyman y
Egon Pearson, escribieron sobre el análisis estadístico: "Las pruebas en sí mismas no dan
ningún veredicto final, sino como herramientas ayudan al trabajador que las está usando a
formar su decisión final".
* Para nosotros un portero, un guardián, un guachiman.

MÁS PARA EXPLORAR


Evaluating the Replicability of Social Science Experiments in Nature and Science between 2010 and 2015. Colin F.
Camerer et al. in Nature Human Behaviour, Vol. 2, pages 637–644; September 2018.

Moving to a World beyond “p< 0.05.” Ronald L. Wasserstein, Allen L. Schirm and Nicole A. Lazar in American Statistician, Vol.
73, Supplement 1, pages 1–19; 2019.
Significancia estadística
Imagina que cultivas calabazas en tu jardín. ¿El uso de fertilizantes afectaría su tamaño?
Dada su larga experiencia sin fertilizante, usted sabe cuánto varían los pesos de las calabazas
y usted sabe que su peso promedio es de 10 libras. Usted decide cultivar una muestra de
25 calabazas con fertilizante. El peso promedio de estas 25 calabazas resulta ser 13.2 libras.
¿Cómo se decide si la diferencia de 3,2 libras con respecto al status quo de 10 libras - la
hipótesis "nula" - ocurrió por casualidad o que el fertilizante con el que se cultivó hace que las
calabazas sean más grandes?

La solución del estadístico Ronald Fisher a este rompecabezas implica realizar un


experimento mental: imagina que cultivamos repetidamente 25 calabazas un gran número de
veces.

Cada vez que obtendrías un peso promedio diferente debido a la variabilidad aleatoria de las
calabazas individuales. Entonces, trazamos la distribución de esos promedios y considerarías
la probabilidad (p-valor) que los datos que ha generado serían posibles si el fertilizante no
tuviera ningún efecto. Por convención, un p-valor de 0.05 p produce un corte para identificar
resultados significativos, en este caso, los que llevan a un investigador a concluir que el
fertilizante no tiene un efecto. Aquí desglosamos algunos de los conceptos que impulsan el
experimento de pensamiento para la significación estadística.

TAMAÑO DEL EFECTO

El tamaño del efecto para un tratamiento es la diferencia entre el resultado medio cuando se
utiliza el tratamiento en comparación con el promedio cuando no se utiliza el tratamiento. El
concepto se puede utilizar para comparar promedios en muestras o promedios "verdaderos"
para distribuciones completas. El tamaño del efecto se puede medir en las mismas unidades
(como libras de calabazas) que el resultado. Pero para muchos resultados, como las
respuestas a algunos cuestionarios psicológicos, no hay una unidad natural. En ese caso, los
investigadores pueden utilizar tamaños de efectos relativos. Una forma de medir el tamaño
relativo del efecto se basa en la superposición entre el control y las distribuciones de
tratamiento.
P valor

Para calcular la p-valor, necesitamos comparar el promedio real de 13,2 libras que
observamos en nuestra muestra de 25 calabazas con la distribución aleatoria de promedios
si tomamos muchas muestras nuevas de 25 calabazas.

La campana de gauss muestra la distribución de pesos medios aleatorios para muestras de


25 bajo la hipótesis nula de que el fertilizante no tiene ningún efecto.

El p-valor es la probabilidad de obtener un peso promedio aleatorio tan lejos de 10 como el


promedio que actualmente se observó, 13.2 lb. Puesto que 13.2 – 10.0 = 3.2, queremos que
la probabilidad de obtener un promedio de ≥ 13.2 o ≤ 6.8 (6.8 = 10 - 3.2). En este ejemplo,
esa probabilidad es 0.074, que es el p-valor para la muestra. Debido a que es mayor que
0.05, su resultado no sería considerado evidencia significativa de que el fertilizante hace la
diferencia.

El ejemplo muestra una "prueba de dos colas", donde el p-valor cuenta la probabilidad de un
peso mayor que 13.2 lb y la de un peso inferior a 6,8 lb (10 – 3,2 a 6,8). En algunas
circunstancias, un investigador podría optar por realizar una "prueba de una sola cola". En
ese caso, el Valor sería sólo 0,037, que, siendo p inferior a 0,05, se considera significativo.
Esto ilustra una manera en que los investigadores pueden modificar su intención declarada
de que en un estudio se pueden alcanzar p-valores diferentes con exactamente los mismos
datos.

INTERVALO DE CONFIANZA

Podemos calcular un intervalo de confianza del 95 por ciento a partir de nuestra muestra de
25 calabazas. Esta es una suposición para el peso promedio de las calabazas fertilizadas.
Calcular el intervalo de confianza del 95 por ciento implica invertir el cálculo para el p-valor
para encontrar todos los valores hipotéticos valores que producen una p-valor ≥ 0,05. Con
nuestra muestra de 25 calabazas, nuestro intervalo de confianza del 95 por ciento va del 9,69
al 16,71.

El peso promedio "verdadero" de las calabazas fertilizadas puede o no estar en ese intervalo.
No podemos estar seguros, así que, ¿qué significa el "95 por ciento"? Imagínese lo que
pasaría si cultivamos repetidamente lotes de 25 calabazas y las muestreamos. Cada muestra
produciría un intervalo de confianza aleatorio diferente. Sabemos que a largo plazo, el 95 por
ciento de estos intervalos incluirían el verdadero valor y el 5 por ciento no lo haría. Pero,
¿qué pasa con nuestro intervalo particular de la primera muestra de calabaza? No sabemos
si es en el 95 por ciento que funcionó o en el 5 por ciento que se perdió. Es el proceso correcto
el 95 por ciento de las veces.
MÉTODOS BAYESIANOS

En el enfoque bayesiano de la inferencia, el estado de incertidumbre de una persona sobre


una cantidad desconocida está representado por una distribución de probabilidad. El teorema
de Bayes se utiliza para combinar las creencias iniciales de las personas —su distribución
antes de mirar los datos— con la información que se recibe de los datos, lo que produce una
distribución matemáticamente implícita para sus creencias actualizadas. Las creencias
actualizadas de un estudio se convierten en las nuevas creencias iniciales para el próximo
estudio, y así sucesivamente. Un área importante de discusión y controversia se refiere a los
intentos de encontrar criterios "objetivos" para las creencias iniciales. El objetivo es encontrar
formas de construir creencias iniciales, conocidas como distribuciones previas, que puedan
ser ampliamente aceptadas por los investigadores como razonables.

SURPRISAL

El p-valor transmite lo sorprendentes que son nuestros datos de calabaza si suponemos que,
en realidad, la fertilización no tiene ningún efecto sobre el crecimiento. Algunos investigadores
han sugerido que p-valores no transmiten sorpresa de una manera intuitiva para la mayoría
de las personas. En su lugar sugieren una cantidad matemática llamada “sorpresa”, también
conocido como un s-valor o la Transformación Shannon, que ajusta p-valores para producir
bits (como en bits de computadora). “Surprisal” se puede interpretar a través del ejemplo de
lanzar monedas.
Nuestra muestra de 25 calabazas con un peso promedio de 13.2 y un valor de p de 0.074
produce entre 3 y 4 bits de sorpresa. Para ser exactos: 3.76 bits de sorpresa ya que 3.76 = –
log2 (0.074)

EN RESUMEN

El uso de p-valores durante casi un siglo para determinar la importancia estadística de los
resultados experimentales ha contribuido a una ilusión de crisis de certeza y reproducibilidad
en muchos campos científicos.

Cada vez hay mayor determinación para reformar el análisis estadístico, pero los
investigadores no están de acuerdo sobre si debe ser ajustado o revisado.

Algunos sugieren cambiar los métodos estadísticos, mientras que otros reducirían un umbral
para definir resultados "significativos".

En última instancia, el p-valor juega en la necesidad humana de la certeza. Así que puede
ser hora de que tanto los científicos como el público abracen la incomodidad de no estar
seguros.

Translation improved by Omar Siguas Robles/Traducción mejorada por Omar Siguas


Robles, Docente Investigador - RENACYT.

También podría gustarte