Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ISSN: 0120-8705
revistamedica@ces.edu.co
Universidad CES
Colombia
○
○
○
○
○
○
○
○
○
○
○
○
○
○
Diferencias estadísticamente
○
○
○
○
significativas vs. relevancia clínica
○
○
○
○
Statistically significant differences vs. clinical relevance
○
○
○
○
MAURICIO BARRERA VALENCIA1
○
Forma de citar: Barrera M. Diferencias estadísticamente significativas vs. relevancia clínica: Rev CES Med 2008; 22 (1): 89-96
○
○
○
○
○
○
RESUMEN
○
○
○
E
○
○
○
○
n este artículo se hace una revisión de los peligros que conlleva el uso del término significación
○
○
final de los estudios de investigación. Para ello, se hace una presentación del concepto de significación
○
○
estadística, los errores tipo I y tipo II y del concepto de relevancia clínica. Asimismo, se discute el uso
○
○
de otro tipo de medidas como son los intervalos de confianza. Finalmente se presentan, a manera de
○
○
conclusión, dos ideas básicas: la primera tiene que ver con la importancia de identificar la prueba
○
estadística que mejor se ajuste al estudio para rechazar o aceptar la hipótesis nula y la necesidad de
○
○
establecer si la magnitud de las diferencias obtenidas tienen alguna importancia desde el punto de
○
○
vista clínico.
○
○
○
○
○
PALABRAS CLAVE
○
○
○
○
○
Significación estadística
○
○
Valor p
○
○
○
Intervalos de confianza
○
○
Investigación
○
○
○
○
○
○
1
MSc. Profesor Universidad de Antioquia. E mail: maobarrera@une.net.co
○
○
○
89
SUMMARY rechazar la hipótesis nula, si el valor de p es más
○
○
grande (1).
○
○
○
This article reviews the potential hazards of using Desde entonces, y particularmente en los últimos
○
the term ‘statistical significance’ as well as the
○
treinta años, el uso de la prueba de hipótesis en
○
importance of analyzing size effects of differences las revistas de ciencias de la salud se ha
○
○
found at the research reports articles. Thus, this incrementado enormemente, buscando dar un
○
article presents a review of concepts like statistical
○
soporte más objetivo a las conclusiones que
○
significance, type I and type II errors, and clinical
○
sacan los investigadores de sus estudios. Sin
○
relevance. Similarly, a discussion regarding other embargo, una consecuencia desafortunada de
○
○
statistical measures, such as confidence intervals, este auge ha sido el énfasis que se le ha otorgado
○
is presented. At last, two ideas are presented as
○
al resultado en términos del valor obtenido,
○
main conclusions of this analysis: the first deals olvidando el significado clínico que se desprende
○
○
with the importance of identifying the best de este resultado. Así, en esta prueba, los datos
○
○
statistical tests to either accept or reject the null se examinan con relación a una hipótesis
○
hypothesis in a research study. The second idea estadística “nula”, práctica que ha llevado a la
○
○
highlights the need of clarifying the clinical creencia errónea de que el objetivo de los
○
○
relevance of differences’ size effect. estudios debe ser obtener una significación
○
Statistical significance
○
Confidence intervals
○
una hipótesis y el otro formulado por Neyman y se ha comprobado una asociación o diferencia
○
elección entre dos hipótesis. A mediados de los intensa, de tamaño considerable o importante;
○
○
años cuarenta, los dos métodos se unen, en un simplemente es distinta de cero” (3).
○
○
originalmente contrapuestas y dan lugar a la Un aspecto, que hace más complejo el tema es
○
○
prueba estadística de hipótesis que actualmente el hecho de que, al estar hablando en términos
○
○
se conoce. El método toma de Fisher su valor p de probabilidades (de hecho por esa razón se
○
90
Para comprender más claramente lo expuesto probabilidad de que salga sello es de 0,5 y la
○
○
hasta aquí, vale la pena revisar los conceptos de probabilidad de que salga cara es de 0,5. Si se
○
○
nivel de significancia estadística y los errores lanza un dado, la probabilidad de obtener
○
tipo I y II. cualquiera de sus lados es de 1/6= 0.1667. En
○
○
ambos casos la suma de las posibilidades siempre
○
○
En general las pruebas de significación es igual a 1” (6).
○
○
estadística, se aplican usualmente en estudios
○
analíticos que buscan identificar asociaciones Con base en este concepto de probabilidad, el
○
○
causales entre la exposición a factores de riesgo investigador elige de manera arbitraria qué tanto
○
○
y la presencia de eventos mórbidos. Se debe error está dispuesto a aceptar en los resultados
○
advertir claramente que el establecimiento de una de su estudio. Esa elección le permite al
○
○
asociación se fundamenta en la detección de una investigador decidir si sus resultados son válidos
○
○
diferencia, y que la obtención de esta diferencia o no, aún sabiendo que siempre existirá la
○
○
entre los grupos comparados puede ser, en posibilidad de equivocarse en su decisión. En
○
principio, el resultado del simple azar, y no como otras palabras, siempre existe la posibilidad de
○
○
la expresión de una diferencia real existente entre realizar una investigación cuyos resultados
○
○
los grupos comparados (4). señalan una diferencia, cuando realmente dicha
○
○
Ahora bien, dado que es virtualmente imposible aceptado generalmente los valores de 0,05 o 0,01
○
○
obtener resultados con un 100% de certeza, el (lo que conlleva a tener una seguridad de acierto
○
○
investigador de forma a priori, define un valor de del 95 o 99% respectivamente). Este es el valor
○
○
certeza con el cual aspira obtener resultados que se denomina valor “p” y su interpretación
○
confiables de su estudio. Este valor seleccionado puede ser expresada en términos generales del
○
○
es lo que se conoce como nivel de significancia y siguiente modo “un resultado que es significativo
○
○
hace referencia a la probabilidad de obtener en al nivel de 0.05 puede ocurrir por azar no más de
○
○
cierta (5). Para clarificar mejor este punto, es Sin embargo, así como es posible confirmar la
○
○
probabilidad, mediante un ejemplo dado por obtenidos siendo esta falsa, también es posible
○
Wiersman (citado por Hernández y col): rechazar dicha hipótesis (es decir aceptar la
○
○
“La probabilidad de que un evento ocurra oscilará A esta particularidad es a lo que se le denomina
○
○
entre 0 y 1, donde 0 significa la imposibilidad de error tipo I y error tipo II, respectivamente (para
○
ocurrencia y 1 la certeza de que ocurra el una presentación más detallada ver tabla 1)
○
○
VERDAD EN LA POBLACIÓN
○
RESULTADO DE
UN ESTUDIO
Correcta es Correcta
○
○
91
Para evitar alguno de estos errores, los real pueden ser estadísticamente significativas
○
○
investigadores concentran sus esfuerzos en cuando el tamaño de la muestra es grande,
○
○
seleccionar adecuadamente la muestra, controlar mientras que efectos clínicamente importantes
○
aquellas variables que puedan afectar los pueden no ser estadísticamente significativos
○
○
resultados de sus mediciones, emplear solo porque el número de sujetos estudiados fue
○
○
instrumentos válidos y confiables para medir la escaso.
○
○
variable de interés y seleccionar un diseño de la
○
investigación que pueda dar respuesta a las Otro aspecto, tiene que ver con el juicio que hace
○
○
preguntas de investigación que se formulan. Es el investigador de sus resultados. Aún aceptando
○
○
por estas razones que el concepto de nivel de que al comparar los valores de las medidas, estas
○
○
significancia estadística es tan importante para arrojen una diferencia estadísticamente
○
el estudio, pues de alguna manera brinda la significativa, pocas veces el investigador se
○
○
confianza necesaria al investigador de que sus preocupa por evaluar el tamaño de dicha
○
○
resultados no son producto del azar. diferencia. Dicho de otra forma, el investigador
○
○
concentra todos sus esfuerzos en evitar
○
Desafortunadamente, esta forma de proceder no resultados productos del azar, pero olvida analizar
○
○
es infalible y puede dar lugar a conclusiones si dichos resultados tienen alguna relevancia
○
○
erróneas. La objeción más importante a este ○
○
clínica.
método proviene precisamente de la naturaleza
○
de los valores p, ya que el rechazo o la aceptación De acuerdo a Fernández y Díaz (11) y Coolican
○
○
de una hipótesis resulta ser en la mayoría de los (12), la relevancia clínica de un fenómeno va más
○
○
casos, fruto del tamaño de la muestra. Al allá de cálculos aritméticos y está determinada
○
○
resulta ser, simplemente, un reflejo del tamaño morbimortalidad generada por el mismo, su coste
○
○
coloca en una aparente paradoja: cuando En este sentido Sarria y Silva plantean que “A
○
○
operamos con una parte muy pequeña de la menudo se olvida que el análisis estadístico es
○
○
realidad (una muestra muy pequeña), entonces solo un elemento más que ha de sumarse al
○
es lógico e intuitivo, lo cual conduce a que información aportada por estudios anteriores
○
○
proclaman que con un tamaño de muestra mayor convertir en una conclusión algo que no pasa de
○
○
tienen razón; pero eso significa que tampoco se significativo (o sus derivados) para referirse a un
○
puede sacar nada en claro cuando se trabaja con resultado importante” (13). En otras palabras: a
○
○
una muestra muy grande, puesto que en tal caso pesar de que el resultado de la prueba de
○
○
el rechazo de la hipótesis nula queda virtualmente hipótesis puede arrojar como resultado el rechazo
○
○
Por esta razón, autores como Gardner y Altman, interés, esta conclusión no siempre representa
○
○
(2) afirman que pequeñas diferencias sin interés el mismo significado en la práctica. En algunas
○
○
92
ocasiones se puede encontrar que una diferencia establecer los efectos ocasionados luego de un
○
○
estadísticamente significativa no representa una accidente cerebro vascular (ACV) de la arterial
○
○
diferencia de magnitud relevante de acuerdo a la cerebral anterior, sobre la capacidad de inhibición
○
naturaleza del problema que se ha definido para de respuestas automáticas de los pacientes,
○
○
el estudio. Así, la magnitud de la diferencia luego de dos semanas del evento. Para ello, se
○
○
clínicamente significativa la establece el toma un grupo de pacientes con ACV (n=20) de
○
○
investigador basándose en múltiples factores la arteria cerebral anterior (grupo 1), otro grupo
○
como la gravedad del problema que se va a de pacientes con ACV (n=18) en la arteria
○
○
investigar, morbimortalidad asociada con el cerebral media o posterior (grupo 2) y un grupo
○
○
fenómeno, los costos que conlleva la control (n=22) sin antecedentes de daño cerebral
○
implementación de nuevos tratamientos o la (grupo 3). Los grupos se equiparan en las variables
○
○
presentación de efectos secundarios (14, 15). de edad, sexo, nivel educativo y estrato
○
○
socioeconómico. Para la evaluación se incluye la
○
○
Para ilustrar lo expuesto hasta aquí, supóngase prueba del Stroop y los resultados se resumen
○
un estudio hipotético en el cual se pretende en la tabla 2.
○
○
○
○
○
Tabla 2. DATOS DE EJEMPLO DE DOS GRUPOS CON ACV Y UN GRUPO
○
○
Me Me Me p*<0.05
○
○
Ds Ds Ds
○
○
man de un resultado significativo. Sin embargo, cias en el número de errores y en el tiempo son
○
○
al observar las medias y las desviaciones estándar, significativas o representan una diferencia real?
○
○
los valores señalan diferencias de menos de un Como puede verse, para responder a este inte-
○
en el tiempo empleado por los tres grupos. La estadística del evento; es necesario apelar a la
○
○
pregunta que a continuación deberá plantearse experiencia del investigador con el instrumento
○
○
93
de medida y a los resultados obtenidos por otros punto de vista clínico. Solo así será factible
○
○
estudios similares, entre otros aspectos, para disminuir la posibilidad de encontrar asociaciones
○
“estadísticamente posibles pero conceptualmente
○
poder, ahí si, determinar si el valor obtenido me-
○
rece ser tenido en cuenta (para una revisión de estériles” (9).
○
○
algunos ejemplos adicionales en relación con el
○
○
tema consultar a Sarria y Silva) (13). Una sugerencia útil consiste en utilizar además
○
del valor p otro tipo de medida como los
○
○
Todo esto, ha originado una seria controversia intervalos de confianza (22) los cuales pueden
○
○
alrededor de la conveniencia o no de indicar la facilitar la distinción entre significación
○
○
relevancia de los resultados en términos del valor estadística y significación clínica. En la figura 1
○
p. (16, 17) e incluso se ha planteado el uso de se ilustran cinco interpretaciones posibles de una
○
○
otras medidas que puedan ser más útiles para prueba de significación en términos del intervalo
○
○
interpretar los resultados de un estudio como son de confianza de una diferencia entre dos grupos
○
○
la estimación y los intervalos de confianza (18). que pudiera eventualmente ser útil para el
○
En esta línea revistas como Lancet, British Journal investigador en el análisis de sus datos:
○
○
of Medicine o New England Journal of Medicine
○
○
han sugerido el uso de medidas diversas al valor
○
de p (19) y la American Psychological Association ○
○
Figura 1. PRUEBA DE SIGNIFICANCIA
recomienda el uso de medidas como los
○
efectos de tamaño de las diferencias encontradas (a) La diferencia es significativa y con seguridad, suficientemente grande
○
publicación de usar o no el valor p en sus análisis importante; (c) La diferencia es significativa, pero demasiado pequeña
○
○
No obstante, es necesario señalar que existen grande para ser clínicamente importante. (22)
○
○
uso.
○
Importante
○
○
Hipótesis
○
Significativo No Significativo
○
verdadero
de mejor forma a la naturaleza de los datos para
○
○
REFERENCIAS
○
si las diferencias son producto o no del azar, sino 1. Benavidez, A y Silva, L.C. Contra la sumisión
○
diferencias posee alguna importancia desde el significación Metas. 2000 27: 35-40.
○
○
94
2. Gardner, M.J. y Altman, D. G.) Confidence 11. Fernández, P. y Díaz, P. Significancia estadís-
○
○
intervals rather than P values: estimation tica y relevancia clínica Cadena de Atención
○
○
rather than hypothesis testing British Medical Primaria. 2001; 8: 191-195.
○
○
Journal. 1986; 292: 746-750.
○
12. Coolican, H. Métodos de Investigación en
○
○
3. Fleiss, J.L. Las pruebas de significación tie- Psicología 3ª ed. Mexico: Manual Moderno
○
○
2005.
nen una función en la investigación
○
○
epidemiológica: Respuesta a M. Wlaker Bole-
○
13. Sarria, M y Silva, L.C. Las Pruebas de Signifi-
○
tín Sanitario de Panamá. 1993; 2: 115.
○
cación estadística en tres revistas biomédi-
○
cas: una revisión crítica Revista Panamerica-
○
○
4. Londoño, J.L. Metodología de la Investiga- na de Salud Pública. 2004; 15 (5): 300 – 305.
○
○
ción Epidemiológica (3ª ed) Manual Moder-
○
○
no Bogotá, Colombia 2004. 14. Gil, J.F. Una Mirada al Valor de p en Investiga-
○
ción Revista Colombiana de Psiquiatría. 2005;
○
○
5. Smith, Peter G & Morrow, Richard H. Ensa- 34 (3): 414 – 424.
○
○
yos de campo de intervenciones en salud en
○
○
países en desarrollo. 2° edición. OPS, 1998 15. Schatz, P. Jay, K.A. McComb, J. McLaughlin,
○
256-257.
○
1053 – 1059.
○
determinantes para el cálculo de su tamaño 18. Castañeda, J y Gil. J.F. Una mirada a los inter-
○
○
10. Silva. L.C. y Benavides, A. Apuntes sobre ki, P. Chistiansen, A. Kleinig, A. Lo, J. Mcnena-
○
○
95
21. American Psychological Association Manual 22. Armitage, P y Berry, G. Estadística para la In-
○
○
de Estilo de Publicaciones 2ª ed. Manual vestigación Biomédica 3ª Ed. Harcourt Brace
○
○
Moderno. 2002. Mexico. 1997. Madrid España.
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
96