Está en la página 1de 4

ENSAYO: la reproducibilidad de estudios en peligro de extinción por la significancia estadística

Hoy en día, la estadística se ha aplicado en la investigación aplicada como una herramienta para
conocer diferentes aspectos de una población. En la práctica, los parámetros poblacionales siempre
son desconocidos, y el investigador se ve en la necesidad de responder preguntas relativas a los
mismos, basándose en información muestral. Para ello se emplean herramientas de estimación y
pruebas de hipótesis. La estimación se encarga básicamente de brindar información en estudios de
diagnóstico en los que se conoce poco sobre los parámetros de interés, lo que permite caracterizar
una población. Por otro lado, las hipótesis estadísticas permiten responder preguntas dirigidas,
buscando confirmar información de algún fenómeno mas o menos explorado. Asimismo, el
contraste de hipótesis permite resolver una pregunta especialmente relevante en investigación:
¿Existe diferencia entre los parámetros de dos o más poblaciones? Este contraste es formalmente
constituido en un juego de hipótesis (Dagnino S., 2014; Correa, 2022)
Juego de hipótesis estadística
En un contexto restringido, una hipótesis estadística es una afirmación acerca de un parámetro
poblacional, la cual se expresa mediante dos regiones paramétricas exhaustivas y mutuamente
excluyentes. Una hipótesis estadística permite dictaminar sobre la plausibilidad de una u otra
opción, usando la información muestral como guía (Correa, 2022).
Un juego de hipótesis estadístico para el parámetro θ tiene el siguiente formato general (Walpole et
al., 2012):
Ho:θ ∈ Θ0
c
H a :θ ∈Θ0
Donde Ho y Ha son la hipótesis nula y alternativa, respectivamente, y Θ ❑ es el espacio paramétrico
de θ.
La Ho siempre hace referencia a la nulidad de efectos (no tiene capacidad superior a la normal y no
difiere del referente), y es la que incluye la igualdad. La Ha es la que el investigador usualmente
desea probar. Consiste en la negación y complemento de la hipótesis nula (Walpole et al., 2012;
Correa, 2022).
El operador relacional ∈ de una prueba de hipótesis puede variar según el tipo de prueba ejecutada,
tal como se muestra en la Fig. 1.
Fig. 1. Tipos de pruebas de hipótesis
Las selección de una prueba de hipótesis depende de lo que nos indique la información muestral
disponible.
En general, cuando la información muestral obtenida para contrastar un juego de hipótesis no apoya
la hipótesis nula, esta se rechaza. De lo contrario, no se rechaza (Walpole et al., 2012):

 Si en la confrontación de la hipótesis, las observaciones no discrepan mucho de lo esperado en


el escenario nulo, no se rechaza Ho. Es decir, no puede probarse, con baja probabilidad de error,
que Ho sea falsa. Por lo tanto, se acepta Ho como hipótesis temporal.
 Si en dicha confrontación, las observaciones si discrepan bastante de lo esperado en el escenario
nulo, se rechaza Ho. Es decir, se prueba, con baja probabilidad de error, que Ho es falta. Por lo
tanto, se concluye a favor de Ha.
En muchos casos, al no rechazo de la hipótesis nula se le llama aceptación. Este término ha sido
muy criticado, pues desde el punto de vista de la lógica, resulta inadecuado aceptar un postulado por
el solo hecho de no existir argumentos suficientes en su contra. Todo lo que podría decirse es que
no se cuenta con elementos suficientes para rechaza Ho y respaldar Ha. El no rechazo de Ho no
tiene carácter de prueba; en tales casos, la Ho se toma como una hipótesis temporal que se
mantendrá hasta que surjan elementos que permitan rechazarla (Correa, 2022).
Los límites de la prueba de hipótesis
Como las pruebas de hipótesis permiten responder preguntas dirigidas, resultan particularmente
relevantes en estudios de investigación aplicada, pues proporcionan más información que las
herramientas de estimación. Sin embargo, y como ya se había mencionado previamente, el no
rechazo de Ho en un juego de hipótesis no tiene carácter de prueba, lo que plantea serios
cuestionamiento acerca de las bases sobre las que reposa la inferencia estadística. Para
ejemplificarlo, se presentan algunas preguntas que se pueden responder con una prueba de hipótesis
(Minitab, 2022):
¿Tienen las estudiantes de posgrado una estatura media diferente de 160 cm?
¿Es la desviación estándar de su estatura igual a o menor que 8 cm?
¿Es diferente la estatura de estudiantes hombres y mujeres de posgrado en promedio?
¿Es la proporción de los estudiantes de posgrado significativamente más alta que la proporción de
las estudiantes de pregrado?
Si bien dichos cuestionamientos están orientados por valores de referencia del parámetro
poblacional estudiado, sus respuestas no son concluyentes. Parece ser que el problema radica en que
las pruebas de hipótesis acotan las preguntas que pueden ser planteadas con base en rechazar o no
Ho y, consecuentemente, también sus respuestas.
Este hecho impacta directamente sobre la reproducibilidad de estudios. De hecho, se estima que
hasta dos tercios de los estudios revisados por pares en psicología, y entre el 20 y el 50 % de los
estudios en medicina no se pueden reproducir. De hecho, la mayoría de los científicos encuestados
en Nature el año pasado no habían podido reproducir al menos un resultado publicado
anteriormente (que en muchos casos era originalmente su propio resultado) (Amrhein et al., 2019).
Cambiar el valor p es una solución provisional
Engelson, 2017, considera que son cuatro las razones principales por las que un estudio
experimental puede no ser reproducible: fraude, metodología deficiente, sensibilidad de control y
variación aleatoria. Los campos donde son recurrentes estos problemas pueden necesitar mejores
métodos para describir controles y técnicas experimentales. Además, es posible que sea necesario
evaluar cuidadosamente la relevancia de los resultados de la investigación en condiciones del
mundo real (Greenland et al., 2016)
Mejorar la metodología científica y estadística en general requiere un cambio institucional y una
reconversión a gran escala de los investigadores, por lo que es lento y costoso en el mejor de los
casos. Sin embargo, algunos autores proponen una forma mucho más fácil de mejorar la
reproducibilidad mientras trabajamos en los problemas metodológicos más difíciles: simplemente
cambiar el umbral del valor p requerido para llamar a un resultado "estadísticamente significativo"
(Amrhein et al., 2019; Greenland et al., 2016; Wasserstein & Lazar, 2016).
En general, el valor p es la probabilidad de que los resultados experimentales se den por casualidad.
Un valor de p bajo significa que los resultados son improbables solo debido al azar y, por lo tanto,
algún proceso real, presumiblemente la hipótesis que se está probando, probablemente los causó
(Walpole et al., 2012). Los autores argumentan que el umbral estándar para considerar un resultado
"estadísticamente significativo" debería reducirse diez veces, de 0,05, como es ahora estándar en
muchos campos, a 0,005. Un umbral tan bajo reducirá drásticamente la cantidad de falsos positivos
que se informan y, por lo tanto, la literatura científica, en general, será más confiable, con muchos
más resultados publicados reproducibles (Wasserstein & Lazar, 2016).
Si bien endurecer los estándares de significación estadística podría reducir levemente la cantidad de
resultados irreproducibles, la propuesta reforzará las ideas perniciosas que impiden que la
comunidad científica adopte mejores metodologías. De hecho, la noción misma de que es posible
simplemente clasificar los resultados experimentales como "estadísticamente significativos" o no,
es un concepto que causa mucha confusión y error. Implementar este cambio solo reforzará la idea
problemática de que un estudio está "dentro" o "fuera". El valor de un resultado experimental como
evidencia, ya sea a favor o en contra de una hipótesis, rara vez es un asunto de todo o nada. En lugar
de un solo criterio de importancia binario "dentro o fuera", necesitamos observar múltiples medidas
cuantitativas de valor probatorio (como el valor p, los factores de Bayes, las razones de
probabilidad y los tamaños del efecto absoluto/relativo) directamente, junto con las razones por las
que estas medidas tienen sentido para el problema que se estudia. Tales prácticas harán que sea más
fácil combinar la evidencia de múltiples estudios para obtener una visión más clara del panorama
general (Greenland et al., 2016). Y tal combinación de evidencia es el punto real.
Sin embargo, realizar este tipo de análisis consume mucho tiempo y es costoso, crea cargas para los
investigadores y las agencias de financiación, ralentizan el progreso científico aparente e interfieren
con la publicación a alta velocidad de artículos revisados por pares, la principal moneda de avance
de la carrera científica. Por estas razones, se requieren esfuerzos mayores para mejorar la práctica
científica de esta manera, de ahí la sugerencia de dar un pequeño paso adelante simplemente
cambiando los valores de p que consideramos "estadísticamente significativos" (Greenland et al.,
2016).
Impulsar la investigación científica requiere que se haga ciencia que reconozca explícitamente su
naturaleza comunitaria e interconectada (Wasserstein & Lazar, 2016). Las medidas provisionales,
como la propuesta “p < 0,005”, que endurecen los supuestos perniciosos de la ciencia de criterio de
decisión solo dañarán a la ciencia a largo plazo, incluso si logran pequeñas mejoras a corto plazo.
En resumen, el nuevo paradigma consta de eliminar el término estadísticamente significativo y
reemplazarlo con múltiples medidas relevantes y justificadas de valor probatorio, mientras se
trabaja para construir los estándares, técnicas, incentivos e instituciones necesarias para respaldar la
ciencia del futuro.

Bibliografía
Amrhein, V., Greenland, S., & McShane, B. (2019). Scientists rise up against statistical
significance. Nature, 567(7748), 305–307. https://doi.org/10.1038/d41586-019-00857-9
Correa G.A. (2022). PRUEBAS DE HIPÓTESIS. Texto guía de la asignatura Métodos Estadísticos
para la Investigación. Universidad Nacional de Colombia, Medellín, Antioquia.
Dagnino S., J. (2014). INFERENCIA ESTADÍSTICA: PRUEBAS DE HIPÓTESIS. Revista
Chilena de Anestesia, 43(2). https://doi.org/10.25237/revchilanestv43n02.10
Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D.
G. (2016). Statistical tests, P values, confidence intervals, and power: a guide to
misinterpretations. European Journal of Epidemiology, 31(4), 337–350.
https://doi.org/10.1007/s10654-016-0149-3
Minitab LLC (2022) ¿Qué es una prueba de hipótesis? Soporte de Minitab [Online]. Disponible en:
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-
topics/basics/what-is-a-hypothesis-test/
Walpole, R. E., Myers, R. H., & Myers, S. L. (2012). Probabilidad y estadística para ingeniería y
ciencias. http://www.ebooks7-24.com.ezproxy.unal.edu.co/?il=3375
Wasserstein, R. L., & Lazar, N. A. (2016). The ASA Statement on p -Values: Context, Process, and
Purpose. The American Statistician, 70(2), 129–133.
https://doi.org/10.1080/00031305.2016.1154108

También podría gustarte