Está en la página 1de 9

CES Medicina

ISSN: 0120-8705
revistamedica@ces.edu.co
Universidad CES
Colombia

BARRERA VALENCIA, MAURICIO


Diferencias estadísticamente significativas vs. relevancia clínica
CES Medicina, vol. 22, núm. 1, enero-junio, 2008, pp. 89-96
Universidad CES
Medellín, Colombia

Disponible en: http://www.redalyc.org/articulo.oa?id=261121009010

Cómo citar el artículo


Número completo
Sistema de Información Científica
Más información del artículo Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Página de la revista en redalyc.org Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Artículo de Opinión















Diferencias estadísticamente





significativas vs. relevancia clínica





Statistically significant differences vs. clinical relevance





MAURICIO BARRERA VALENCIA1


Forma de citar: Barrera M. Diferencias estadísticamente significativas vs. relevancia clínica: Rev CES Med 2008; 22 (1): 89-96






RESUMEN


E



n este artículo se hace una revisión de los peligros que conlleva el uso del término significación

estadística y la importancia de analizar la magnitud de las diferencias que se encuentran al


final de los estudios de investigación. Para ello, se hace una presentación del concepto de significación

estadística, los errores tipo I y tipo II y del concepto de relevancia clínica. Asimismo, se discute el uso

de otro tipo de medidas como son los intervalos de confianza. Finalmente se presentan, a manera de

conclusión, dos ideas básicas: la primera tiene que ver con la importancia de identificar la prueba

estadística que mejor se ajuste al estudio para rechazar o aceptar la hipótesis nula y la necesidad de

establecer si la magnitud de las diferencias obtenidas tienen alguna importancia desde el punto de

vista clínico.




PALABRAS CLAVE




Significación estadística

Valor p


Intervalos de confianza

Investigación





1
MSc. Profesor Universidad de Antioquia. E mail: maobarrera@une.net.co


Recibido: 22 noviembre / 2007. Revisado: 24 febrero / 2007. Aceptado: 7 abril / 2007


Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

89
SUMMARY rechazar la hipótesis nula, si el valor de p es más



grande (1).




This article reviews the potential hazards of using Desde entonces, y particularmente en los últimos


the term ‘statistical significance’ as well as the


treinta años, el uso de la prueba de hipótesis en


importance of analyzing size effects of differences las revistas de ciencias de la salud se ha



found at the research reports articles. Thus, this incrementado enormemente, buscando dar un


article presents a review of concepts like statistical


soporte más objetivo a las conclusiones que


significance, type I and type II errors, and clinical


sacan los investigadores de sus estudios. Sin


relevance. Similarly, a discussion regarding other embargo, una consecuencia desafortunada de



statistical measures, such as confidence intervals, este auge ha sido el énfasis que se le ha otorgado


is presented. At last, two ideas are presented as


al resultado en términos del valor obtenido,


main conclusions of this analysis: the first deals olvidando el significado clínico que se desprende



with the importance of identifying the best de este resultado. Así, en esta prueba, los datos



statistical tests to either accept or reject the null se examinan con relación a una hipótesis


hypothesis in a research study. The second idea estadística “nula”, práctica que ha llevado a la



highlights the need of clarifying the clinical creencia errónea de que el objetivo de los


relevance of differences’ size effect. estudios debe ser obtener una significación

estadística, cuando en realidad el objetivo de la



mayor parte de las investigaciones en ciencias



KEY WORDS de la salud, es determinar la magnitud de algún



factor, evento o relación objeto de estudio (2).



Statistical significance

Al respecto Fleiss afirma: “Es indudable que tanto



p value en epidemiología como en otras disciplinas se


ha abusado de las pruebas de significación: las


Confidence intervals

asociaciones o diferencias estadísticamente



Research significativas se han considerado, erróneamente,


equivalentes a asociaciones o diferencias



importantes, y las asociaciones o diferencias


Las pruebas de significación, tal y como


estadísticamente no significativas se han


usualmente se usan en la actualidad, surgieron


considerado, también erróneamente, iguales a

de la fusión de dos métodos: uno desarrollado


cero”. Y más adelante concluye: “la inferencia


por Fisher en los años veinte, que permitía valorar


apropiada que puede hacerse a partir de un


el grado de incompatibilidad de los datos con resultado estadísticamente significativo es que



una hipótesis y el otro formulado por Neyman y se ha comprobado una asociación o diferencia

Pearson, en los años treinta, que se basaba en la


distinta de cero; no tiene por qué ser necesariamente


elección entre dos hipótesis. A mediados de los intensa, de tamaño considerable o importante;

años cuarenta, los dos métodos se unen, en un simplemente es distinta de cero” (3).

intento por conciliar estas perspectivas


originalmente contrapuestas y dan lugar a la Un aspecto, que hace más complejo el tema es

prueba estadística de hipótesis que actualmente el hecho de que, al estar hablando en términos

se conoce. El método toma de Fisher su valor p de probabilidades (de hecho por esa razón se

para ser usado como un índice que mide la fuerza


emplean las herramientas de la estadística) las


de la evidencia y de Neyman y Pearson, el posibilidades de encontrar en un estudio una



propósito de adoptar una decisión consistente diferencia “estadísticamente significativa” se



en rechazar la hipótesis nula si el valor de p es aumentan a medida que aumentan el número de


pequeño (normalmente, cuando p<0.05) y en no comparaciones.



Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

90
Para comprender más claramente lo expuesto probabilidad de que salga sello es de 0,5 y la



hasta aquí, vale la pena revisar los conceptos de probabilidad de que salga cara es de 0,5. Si se



nivel de significancia estadística y los errores lanza un dado, la probabilidad de obtener


tipo I y II. cualquiera de sus lados es de 1/6= 0.1667. En



ambos casos la suma de las posibilidades siempre



En general las pruebas de significación es igual a 1” (6).



estadística, se aplican usualmente en estudios


analíticos que buscan identificar asociaciones Con base en este concepto de probabilidad, el



causales entre la exposición a factores de riesgo investigador elige de manera arbitraria qué tanto



y la presencia de eventos mórbidos. Se debe error está dispuesto a aceptar en los resultados


advertir claramente que el establecimiento de una de su estudio. Esa elección le permite al



asociación se fundamenta en la detección de una investigador decidir si sus resultados son válidos



diferencia, y que la obtención de esta diferencia o no, aún sabiendo que siempre existirá la



entre los grupos comparados puede ser, en posibilidad de equivocarse en su decisión. En


principio, el resultado del simple azar, y no como otras palabras, siempre existe la posibilidad de



la expresión de una diferencia real existente entre realizar una investigación cuyos resultados


los grupos comparados (4). señalan una diferencia, cuando realmente dicha

diferencia no existe. Por tradición se han


Ahora bien, dado que es virtualmente imposible aceptado generalmente los valores de 0,05 o 0,01

obtener resultados con un 100% de certeza, el (lo que conlleva a tener una seguridad de acierto

investigador de forma a priori, define un valor de del 95 o 99% respectivamente). Este es el valor

certeza con el cual aspira obtener resultados que se denomina valor “p” y su interpretación

confiables de su estudio. Este valor seleccionado puede ser expresada en términos generales del

es lo que se conoce como nivel de significancia y siguiente modo “un resultado que es significativo

hace referencia a la probabilidad de obtener en al nivel de 0.05 puede ocurrir por azar no más de

un estudio un valor tan extremo como el 5 veces en 100 ensayos” (7).


realmente observado si la hipótesis nula fuera



cierta (5). Para clarificar mejor este punto, es Sin embargo, así como es posible confirmar la

conveniente explicar el concepto de hipótesis alterna con base en los resultados



probabilidad, mediante un ejemplo dado por obtenidos siendo esta falsa, también es posible

Wiersman (citado por Hernández y col): rechazar dicha hipótesis (es decir aceptar la

hipótesis nula) cuando en realidad era verdadera.



“La probabilidad de que un evento ocurra oscilará A esta particularidad es a lo que se le denomina

entre 0 y 1, donde 0 significa la imposibilidad de error tipo I y error tipo II, respectivamente (para

ocurrencia y 1 la certeza de que ocurra el una presentación más detallada ver tabla 1)

fenómeno. Al lanzar al aire una moneda, la (8, 9).






Tabla 1. RESULTADOS POSIBLES DE UN ESTUDIO




VERDAD EN LA POBLACIÓN

RESULTADO DE
UN ESTUDIO

La Hipótesis Nula es La Hipótesis Alterna



Correcta es Correcta

Se confirma Hipótesis Nula Verdadero negativo Error tipo II o falso negativo



Se confirma Hipótesis Alterna Error tipo I o falso positivo Verdadero positivo





Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

91
Para evitar alguno de estos errores, los real pueden ser estadísticamente significativas



investigadores concentran sus esfuerzos en cuando el tamaño de la muestra es grande,



seleccionar adecuadamente la muestra, controlar mientras que efectos clínicamente importantes


aquellas variables que puedan afectar los pueden no ser estadísticamente significativos



resultados de sus mediciones, emplear solo porque el número de sujetos estudiados fue



instrumentos válidos y confiables para medir la escaso.



variable de interés y seleccionar un diseño de la


investigación que pueda dar respuesta a las Otro aspecto, tiene que ver con el juicio que hace



preguntas de investigación que se formulan. Es el investigador de sus resultados. Aún aceptando



por estas razones que el concepto de nivel de que al comparar los valores de las medidas, estas



significancia estadística es tan importante para arrojen una diferencia estadísticamente


el estudio, pues de alguna manera brinda la significativa, pocas veces el investigador se



confianza necesaria al investigador de que sus preocupa por evaluar el tamaño de dicha



resultados no son producto del azar. diferencia. Dicho de otra forma, el investigador



concentra todos sus esfuerzos en evitar


Desafortunadamente, esta forma de proceder no resultados productos del azar, pero olvida analizar



es infalible y puede dar lugar a conclusiones si dichos resultados tienen alguna relevancia


erróneas. La objeción más importante a este ○

clínica.
método proviene precisamente de la naturaleza

de los valores p, ya que el rechazo o la aceptación De acuerdo a Fernández y Díaz (11) y Coolican

de una hipótesis resulta ser en la mayoría de los (12), la relevancia clínica de un fenómeno va más

casos, fruto del tamaño de la muestra. Al allá de cálculos aritméticos y está determinada

respecto, Silva y Benavides sostienen: por el juicio clínico. La relevancia depende de la


magnitud de la diferencia, la gravedad del



...El rechazo o la aceptación de una hipótesis problema a investigar, la vulnerabilidad, la



resulta ser, simplemente, un reflejo del tamaño morbimortalidad generada por el mismo, su coste

de la muestra: si esta es suficientemente grande, y por su frecuencia entre otros elementos.


siempre se rechazará la hipótesis nula. Esto nos



coloca en una aparente paradoja: cuando En este sentido Sarria y Silva plantean que “A

operamos con una parte muy pequeña de la menudo se olvida que el análisis estadístico es

realidad (una muestra muy pequeña), entonces solo un elemento más que ha de sumarse al

no podemos obtener, conclusión alguna, como arsenal de conocimientos científicos e



es lógico e intuitivo, lo cual conduce a que información aportada por estudios anteriores

muchos investigadores, cuyos resultados no para configurar una conclusión. En consecuencia,



alcanzan la esperada significación estadística, se comenten muchos errores, tales como


proclaman que con un tamaño de muestra mayor convertir en una conclusión algo que no pasa de

casi seguramente lo hubieran logrado. ser un resultado. En este contexto, resulta



Lamentablemente y esto es lo realmente grave, bastante frecuente el uso incorrecto de la palabra



tienen razón; pero eso significa que tampoco se significativo (o sus derivados) para referirse a un

puede sacar nada en claro cuando se trabaja con resultado importante” (13). En otras palabras: a

una muestra muy grande, puesto que en tal caso pesar de que el resultado de la prueba de

el rechazo de la hipótesis nula queda virtualmente hipótesis puede arrojar como resultado el rechazo

asegurado (10). de la hipótesis nula, al indicar que existe una



diferencia en los parámetros poblacionales de


Por esta razón, autores como Gardner y Altman, interés, esta conclusión no siempre representa

(2) afirman que pequeñas diferencias sin interés el mismo significado en la práctica. En algunas

Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

92
ocasiones se puede encontrar que una diferencia establecer los efectos ocasionados luego de un



estadísticamente significativa no representa una accidente cerebro vascular (ACV) de la arterial



diferencia de magnitud relevante de acuerdo a la cerebral anterior, sobre la capacidad de inhibición


naturaleza del problema que se ha definido para de respuestas automáticas de los pacientes,



el estudio. Así, la magnitud de la diferencia luego de dos semanas del evento. Para ello, se



clínicamente significativa la establece el toma un grupo de pacientes con ACV (n=20) de



investigador basándose en múltiples factores la arteria cerebral anterior (grupo 1), otro grupo


como la gravedad del problema que se va a de pacientes con ACV (n=18) en la arteria



investigar, morbimortalidad asociada con el cerebral media o posterior (grupo 2) y un grupo



fenómeno, los costos que conlleva la control (n=22) sin antecedentes de daño cerebral


implementación de nuevos tratamientos o la (grupo 3). Los grupos se equiparan en las variables



presentación de efectos secundarios (14, 15). de edad, sexo, nivel educativo y estrato



socioeconómico. Para la evaluación se incluye la



Para ilustrar lo expuesto hasta aquí, supóngase prueba del Stroop y los resultados se resumen


un estudio hipotético en el cual se pretende en la tabla 2.






Tabla 2. DATOS DE EJEMPLO DE DOS GRUPOS CON ACV Y UN GRUPO

CONTROL EN LA PRUEBA DEL STROOP




Variable Grupo 1 Grupo 2 Grupo 3 Valor



Me Me Me p*<0.05

Ds Ds Ds

Errores ensayo 1 0.42 0.53 0.21 0.62


0.8 0.5 0.3




Tiempo ensayo 1 18.3 19.5 15.6 0.41


0.76 1.02 0.56




Errores ensayo 2 0.62 1.14 0.23 0.26


0.45 1.26 0.35



Tiempo ensayo 2 21.5 22.7 19.1 0.51



2.11 1.14 0.98



Errores fase de conflicto 8.5 7.9 7.7 0.03



3.56 2.28 1.18



Tiempo fase de conflicto 32.5 33.2 31.9 0.02



5.65 4.48 3.15




* Prueba de Kruskall Wallis





el investigador es: ¿Clínicamente estas diferen-


Los valores de p que aparecen en negrita, infor-


man de un resultado significativo. Sin embargo, cias en el número de errores y en el tiempo son

al observar las medias y las desviaciones estándar, significativas o representan una diferencia real?

los valores señalan diferencias de menos de un Como puede verse, para responder a este inte-

rrogante no basta con establecer la magnitud


error entre los grupos y de menos de un segundo


en el tiempo empleado por los tres grupos. La estadística del evento; es necesario apelar a la

pregunta que a continuación deberá plantearse experiencia del investigador con el instrumento

Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

93
de medida y a los resultados obtenidos por otros punto de vista clínico. Solo así será factible



estudios similares, entre otros aspectos, para disminuir la posibilidad de encontrar asociaciones


“estadísticamente posibles pero conceptualmente


poder, ahí si, determinar si el valor obtenido me-


rece ser tenido en cuenta (para una revisión de estériles” (9).



algunos ejemplos adicionales en relación con el



tema consultar a Sarria y Silva) (13). Una sugerencia útil consiste en utilizar además


del valor p otro tipo de medida como los



Todo esto, ha originado una seria controversia intervalos de confianza (22) los cuales pueden



alrededor de la conveniencia o no de indicar la facilitar la distinción entre significación



relevancia de los resultados en términos del valor estadística y significación clínica. En la figura 1


p. (16, 17) e incluso se ha planteado el uso de se ilustran cinco interpretaciones posibles de una



otras medidas que puedan ser más útiles para prueba de significación en términos del intervalo



interpretar los resultados de un estudio como son de confianza de una diferencia entre dos grupos



la estimación y los intervalos de confianza (18). que pudiera eventualmente ser útil para el


En esta línea revistas como Lancet, British Journal investigador en el análisis de sus datos:



of Medicine o New England Journal of Medicine



han sugerido el uso de medidas diversas al valor

de p (19) y la American Psychological Association ○

Figura 1. PRUEBA DE SIGNIFICANCIA
recomienda el uso de medidas como los

Intervalos de confianza que muestran las cinco interpretaciones


intervalos de confianza, que den cuenta de los


posibles en términos de significación estadística e importancia clínica


efectos de tamaño de las diferencias encontradas (a) La diferencia es significativa y con seguridad, suficientemente grande

para tener importancia clínica; (b) La diferencia es significativa, pero


(20), dejando en libertad al autor de una

no está claro si es suficientemente grande para ser clínicamente


publicación de usar o no el valor p en sus análisis importante; (c) La diferencia es significativa, pero demasiado pequeña

(21). para ser importante; (d) La diferencia no es estadísticamente


significativa pero puede ser suficientemente grande para ser


importante; (e) La diferencia no es significativa ni tampoco lo bastante


No obstante, es necesario señalar que existen grande para ser clínicamente importante. (22)

diseños experimentales que justifican



plenamente el uso del valor p y por tanto hay


Diferencia

autores como Fleiss (3) que critican fuertemente



la posición extrema de abolir por completo su



uso.

Importante

A manera de conclusión se plantean dos ideas



que pueden contribuir a la mejor comprensión


Hipótesis

de los resultados que se obtienen en un estudio:


Nula

en primer lugar, está la importancia de seleccionar



(a) (b) (c) (d) (e)


con la misma dedicación y empeño con la que se

Significativo No Significativo

plantea aspectos como el tamaño muestral o el


Definitivamente Posiblemente No No Resultado


diseño de la investigación, la prueba que se ajuste

Importante Importante Importante Concluyente Negativo


verdadero
de mejor forma a la naturaleza de los datos para

aceptar o rechazar la hipótesis nula.



REFERENCIAS

En segundo lugar, se hace necesario, una vez



obtenidos los resultados, no solamente identificar



si las diferencias son producto o no del azar, sino 1. Benavidez, A y Silva, L.C. Contra la sumisión

además establecer si la magnitud de dichas estadística: un apunte sobre las pruebas de



diferencias posee alguna importancia desde el significación Metas. 2000 27: 35-40.

Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

94
2. Gardner, M.J. y Altman, D. G.) Confidence 11. Fernández, P. y Díaz, P. Significancia estadís-



intervals rather than P values: estimation tica y relevancia clínica Cadena de Atención



rather than hypothesis testing British Medical Primaria. 2001; 8: 191-195.



Journal. 1986; 292: 746-750.


12. Coolican, H. Métodos de Investigación en



3. Fleiss, J.L. Las pruebas de significación tie- Psicología 3ª ed. Mexico: Manual Moderno



2005.
nen una función en la investigación



epidemiológica: Respuesta a M. Wlaker Bole-


13. Sarria, M y Silva, L.C. Las Pruebas de Signifi-


tín Sanitario de Panamá. 1993; 2: 115.


cación estadística en tres revistas biomédi-


cas: una revisión crítica Revista Panamerica-



4. Londoño, J.L. Metodología de la Investiga- na de Salud Pública. 2004; 15 (5): 300 – 305.



ción Epidemiológica (3ª ed) Manual Moder-



no Bogotá, Colombia 2004. 14. Gil, J.F. Una Mirada al Valor de p en Investiga-


ción Revista Colombiana de Psiquiatría. 2005;



5. Smith, Peter G & Morrow, Richard H. Ensa- 34 (3): 414 – 424.


yos de campo de intervenciones en salud en

países en desarrollo. 2° edición. OPS, 1998 15. Schatz, P. Jay, K.A. McComb, J. McLaughlin,

J.R. Misuse of Statistical Test in Archives of


256-257.

Clinical Neuropsychology publications Archi-



ves of Clinical Neuropsychology. 2005; 20:


6. Hernández, R. Fernández, C. y Baptista, P.


1053 – 1059.

Metodología de la Investigación 3ª ed. Mc


Graw Hill Mexico D.F. Mexico 2003.


16. Wilhelmus, K.R. Beyond the P: posible



insignificance of de nonsignificant P value


7. Kerlinger F.N. y Lee, HB Investigación del


Journal of cataract Refract Surgeon. 2004;


Comportamiento: Métodos de Investigación 30:2425-2426.



en Ciencias Sociales 4ª ed. Mc Graw Hill Méxi-



co 2001. 17. Wilhelmus, K.R. Beyond the P: precluding a



puddle of p values Journal of cataract Refract


8. Pérez, A. Gómez, C. Sánchez, R. Dennis, R. Surgeon. 2004; 30: 2207-2208.



Ruiz, A. Selección de la muestra y factores



determinantes para el cálculo de su tamaño 18. Castañeda, J y Gil. J.F. Una mirada a los inter-

En Investigación Clínica: Epidemiología Clí- valos de confianza en investigación Revista


Colombiana de Psiquiatría. 2004; 33:(2) 193 – 201.


nica Aplicada Ruiz, A. Gómez, C y Londoño



D. Editores Centro Editorial Javeriano Bogo-


19. Fidler, F. Cumming, G. Burgman, M y Neil, T.


tá Colombia 2001 p. 412 -443.


Statistical reform in medicine, psychology


and ecology The Journal of socio-Economics.


9. Siegel, S. Estadística no Paramétrica Méxi-


2004; 33: 615 – 630.


co: Trillas; 1974



20. Cumming, G. Fidler, F, Leonrard, M. Kalinows-



10. Silva. L.C. y Benavides, A. Apuntes sobre ki, P. Chistiansen, A. Kleinig, A. Lo, J. Mcnena-

subjetividad y estadística en la investigación min, N. y Wilson, S. Statistical Reform in



en salud Revista Cubana de Salud Pública. Psychology Psychological Science. 2007;18


(3): 230 – 232.


2003; 29 (2):170 – 173.



Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

95
21. American Psychological Association Manual 22. Armitage, P y Berry, G. Estadística para la In-



de Estilo de Publicaciones 2ª ed. Manual vestigación Biomédica 3ª Ed. Harcourt Brace



Moderno. 2002. Mexico. 1997. Madrid España.













































































Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

96

También podría gustarte