Significación Estadística

cALidAd
Significacin estadstica
n Jos Navas Sanz de Santamara
Mdico. Director de la Fundacin Cosme y Damin
C
centro de gestin hospitalaria | vasALud | nmero 49 | Septiembre de 2009
uando se habla de estadstica o se lee en la diferentes publicaciones cientficas sobre los resultados de su aplicacin, la mayora de los mdicos experimentamos inseguridad y desconfianza, quizs porque durante nuestra formacin universitaria siempre la vimos como ajena a la cultura mdica o quizs porque en su enseanza se hizo hincapi en su razonamiento matemtico y no en la comprensin de sus alcances y beneficios. Trataremos en este artculo de revisar la esencia de las pruebas estadsticas y su papel en la toma de las decisiones clnicas.
En general, cada vez que se adjudica un adjetivo calificativo a algo o a alguien, implcitamente se est haciendo una comparacin. As, por ejemplo, cuando se habla de que determinado individuo es alto o gordo, se est haciendo una comparacin con el promedio de altura o de masa corporal de la poblacin. De igual manera, en el mbito mdico, cuando se afirma que un paciente es hipertenso o diabtico, se estn comparando su presin arterial o su concentracin glicemia con unos patrones ponderados de valores extrados de la poblacin general. Sin embargo, cuando se hacen estas comparaciones, lo que se busca encontrar es si existen o no diferencias entre los grupos que se estn comparando. De este modo, si quisiera decidir sobre la conveniencia de utilizar un nuevo antibitico en la profilaxis perioperatoria, debo compararlo o buscar la evidencia que lo compare con el antibitico que se acepta regularmente, pues se espera encontrar que los resultados al utilizar los dos antibiticos sean diferentes (quizs mejor el nuevo). Es importante aclarar que no encontrar diferencias no significa que sean iguales. Cuando efectivamente se encuentra diferencia a favor de uno, es importante tener en mente que la diferencia puede provenir de tres orgenes diferentes: Porque hay diferencia real entre los antibiticos. Porque la diferencia es producida por un sesgo, sin haber diferencia real.
Porque la diferencia fue ocasionada por el azar.
La primera razn no requiere explicacin, porque es obvia, pero a ella es casi imposible llegar sin haber descartado los sesgos y el azar como causa o factor contributivo importante de la diferencia. El sesgo se define como cualquier proceso que aparta sistemticamente los resultados de la verdad o que usualmente falsea los resultados. La diferencia encontrada fue inducida por factores distintos al antibitico. Para entender mejor el concepto, ilustramos las dos clases ms frecuentes de sesgos. Si como estrategia para introducir una nueva mquina de afeitar al mercado (Super In) se realiza un estudio que la compara con una mquina tradicional (Rapidbarba) y en la asignacin de sujetos se escoge un grupo de profesionales para usar la Super In (grupo de estudio) y un grupo de indigentes para probar la Rapidbarba (grupo control) y el estudio demuestra que hubo muchas menos cortadas al rasurarse con la Super In, la pregunta que debe hacerse es si realmente es mejor la Super In, en trminos de cortadas, o si solamente por la gran diferencia de los grupos (indigentes vs. profesionales), independiente de la mquina, la frecuencia de cortadas iba a ser mayor. La respuesta, por supuesto, es que de entrada la posibilidad de cortarse al afeitarse era mucho mayor entre los indigentes y quizs el resultado del estudio hubiera sido el mismo, independientemente de cul mquina de afeitar usaran. Es decir, los individuos del grupo de estudio eran diferentes de los individuos del grupo control, y esto se conoce como sesgo de asignacin. El segundo sesgo ms frecuente es el sesgo de medicin, donde las variables se miden siempre mal. Por ejemplo, si queremos constatar la exactitud de la medicin clnica de la longitud de los miembros inferiores y la comparamos contra la medicin radiolgica (test de Farril), pero al metro que utilizamos le faltan centmetros en la punta, siempre encontraremos que hay diferencias en las mediciones, porque el instrumento que utilizamos (metro) siempre mide mal (sesgo del instrumento). En el mismo ejemplo, si quien hace las mediciones
es un radilogo, quien adems no tiene experiencia en identificar los puntos de referencia clnica para la medicin, nuevamente encontraremos diferencias entre los grupos, esta vez ocasionados por un sesgo del observador. La mejor forma de controlar estos y otros sesgos es a travs del uso de un diseo adecuado de estudio, que incluya el mayor grado de cegamiento posible (triple o cudruple ciego). La tercera razn para explicar las diferencias entre dos grupos es la influencia que el azar tiene en los resultados. El azar se define como la variacin fortuita de una medida y es la causa por la cual si se lanza una moneda al aire, no siempre cae igual nmero de veces en cara y en sello. De hecho, si se lanza al aire 10 veces resulta, sin estar viciada la moneda, que cae tres o cuatro veces en cara y seis o siete veces en sello, o viceversa, solamente por azar. En medicina ocurre lo mismo. Si repetimos una medicin, as est siempre bien ejecutada, obtendremos resultados sutilmente distintos solamente por azar, y por ello cuando se encuentran diferencias entre dos grupos en un estudio, es indispensable conocer la probabilidad de que
estas hayan ocurrido solamente por azar antes de aceptarlas como reales. A diferencia de los sesgos, el azar no se puede evitar, pero s medir. As, todas las pruebas estadsticas (T de Student, chi cuadrado, Anova, etc.) sirven para cuantificar la probabilidad de que las diferencias encontradas sean producto de azar. Si volvemos a utilizar el ejemplo de la medicin clnica de la longitud de los miembros inferiores y la repetimos varias veces, encontraremos una variacin de resultados (77,5 a 79,5 cm) alrededor de la medida real (78 cm), que podra atribuirse al azar; mientras que si el metro utilizado es ms corto, tendremos la misma variacin pero alrededor de una medida errada (76 cm), ocasionada por un sesgo de medicin (Grfico 1). La aplicacin de las pruebas estadsticas arroja un resultado numrico que representa la probabilidad porcentual de que la diferencia encontrada sea producto del azar. Se expresa con una p (abreviatura de probabilidad) seguida de un decimal (p<0,01; p<0,05, etc.), para significar que la probabilidad del azar es menor del 1% en el primer caso y del 5% en el segundo (equivale a la probabilidad de error al rechazar la hiptesis nula).
Grfico 1 IntervencIn del azar en la medIda de la longItud real de mIembroS InferIoreS
cALidAd
Cul es el valor de p necesario? La respuesta a esta pregunta es imposible de precisar con certeza, pero la comunidad internacional ha establecido arbitrariamente que probabilidades inferiores al 5% (p<0,05) pueden ser aceptables en la mayora de las investigaciones en salud; sin embargo, este acuerdo no puede ser absoluto, porque el valor de p deseado est condicionado por el impacto que el resultado del estudio produzca, como veremos ms adelante. Por otra parte, existe la tendencia universal a pensar que si los valores de p son bajos (p<0,05 o p<0,01), los resultados del estudio son cientficamente verdaderos, y de manera inversa: si los valores de p son altos, los resultados son un engao. Por ello es importante recalcar, una vez ms, que las pruebas estadsticas solamente cuantifican la probabilidad de que las diferencias encontradas en el estudio hayan aparecido por el azar, pero nunca hablan de que los resultados sean verdaderos o no o que sean ms o menos importantes o trascendentes. En consecuencia, expresiones como altamente significativo no parecen tener cabida al hablar de significacin estadstica, y su ponderacin debe analizarse en conjunto con todas las caractersticas del estudio y a la luz del impacto de los resultados. Adems, la utilizacin de estos valores p (pruebas de hiptesis) tiene limitaciones como no ilustrar la magnitud ni la direccin de la diferencia encontrada. De ah que recientemente haya venido ganando popularidad el uso de los intervalos de confianza (IC) (pruebas de estimacin) que no solamente informan sobre la relacin estadstica, sino que ilustran la magnitud y la direccin de la diferencia encontrada y la variabilidad del resultado. Los intervalos de confianza son una medida de dispersin que representa un rango de valores dentro de los cuales se espera que est el resultado verdadero. Los dos valores que definen el intervalo se llaman lmites de confianza. Se sustentan en que si un mismo estudio se repitiera con diferentes muestras de la poblacin, los resultados no seran idnticos, aunque s estaran distribuidos alrededor de un valor real. El IC estima entonces la variacin entre diferentes muestras de una misma poblacin. La precisin estadstica del resultado se expresa con un IC del 95%. Esto quiere decir que si el estudio fue bien hecho (control de sesgos), hay una posibilidad del 95% de que el intervalo contenga el verdadero valor. La magnitud del IC depende de la variabilidad del fenmeno que se est estudiando y del tamao de la muestra.
(...) expresiones como altamente significativo no parecen tener cabida al hablar de significacin estadstica, y su ponderacin debe analizarse en conjunto con todas las caractersticas del estudio y a la luz del impacto de los resultados. Adems, la utilizacin de estos valores p (pruebas de hiptesis) tiene limitaciones como no ilustrar la magnitud ni la direccin de la diferencia encontrada.
Las frmulas que se utilizan para calcularlo son diferentes si se trata de una frecuencia o de un riesgo, pero siempre en el numerador estar la variabilidad de la medida y en el denominador el tamao de la muestra. Entre menor la variabilidad y mayor el tamao de la muestra (poder del estudio), ms estrecho y, por lo tanto, ms preciso ser el IC. Estos IC se interpretan en forma similar a la significancia estadstica (valor de p), es decir, cuando los IC de dos medidas de frecuencia se superponen o cuando en un estudio de riesgo el IC incluye el uno (no efecto), se dice que la diferencia no es estadsticamente significativa. Sin embargo, a diferencia de los valores de p, los IC proporcionan informacin adicional porque hacen nfasis en lo importante, es decir, en la magnitud del efecto (cuantificacin). Adems, sirven para evaluar la direccin del resultado, que el solo valor de p no indica. Son, por lo tanto, ms completos y tiles que el valor de p, pues permiten caracterizar los resultados, en lugar de simplemente describirlos. Veamos dos ejemplos que ilustran varias formas de uso e interpretacin de los IC. El primero (1) se trata de un estudio de prevalencia de fumadores en los estudiantes de pregrado de una facultad de medicina. Del total de 900 estudiantes, un investigador escogi al azar, mediante un sorteo, una muestra de 100. En esta encontr una prevalencia de fumadores del 25%, y como la muestra fue seleccionada aleatoriamente, concluye que la prevalencia para la totalidad de la poblacin es la misma. Ahora preguntmonos, qu pasara si se escogiera una segunda o una tercera muestra de 100 estudiantes? El resultado sera idntico? Seguramente no. En cada nueva muestra habra
Grfico 2 rIeSgoS relatIvoS e Ic de cuatro poSIbleS deSenlaceS en mujereS InIcIalmente SanaS manejadaS con hormonaS
resultados de estas pruebas estadsticas son: (1) calidad del diseo del estudio, (2) marco conceptual vigente y (3) balance riesgo-beneficio. La calidad del diseo de investigacin que se utiliz es de vital importancia, ya que a travs de este se logra tener un control adecuado de los sesgos, y como lo explicamos anteriormente, cuando existen sesgos (asignacin, medicin, etc.) que por s solos sean capaces de alterar los resultados, resulta inoficioso determinar la probabilidad de azar. An peor, si existen sesgos importantes que desvirtan el estudio, ninguna cantidad de estadstica podr validarlos y su utilizacin solamente podr disfrazarlos de credibilidad (validez metodolgica). El segundo requisito que debe cumplir un estudio es que tenga un marco conceptual vigente, esto es, que se ajuste la lgica fisiopatolgica respaldada en publicaciones previas. Esta vigencia conceptual, a pesar de ser un criterio moderadamente subjetivo, protege de aceptar resultados de estudios cuyo contenido es discretamente extrao y, por lo tanto, nos puede inducir a apoyarnos principalmente en los mtodos estadsticos para aceptarlo (validez cientfica). En general, si los resultados de un estudio van contra el sentido comn, a pesar de mostrar valores de p significativos, es mejor ser cautos o moderadamente escpticos y esperar nuevos estudios. Por el contrario, si los resultados concuerdan con el sentido comn, a pesar de tener valores de p no significativos, probablemente es acertado darles el beneficio de la duda. Mirado desde otra perspectiva: cuando los resultados de un estudio que adems de tener lgica fisiopatolgica y un beneficio importante tienen valores de p grandes, vale la pena confirmar si el tamao de la muestra fue suficiente para poder encontrar diferencias significativas. Por el contrario, cuando el tamao de la muestra es muy grande, se debe ser cauteloso, porque pueden mostrar significacin estadstica en variables clnicamente triviales. Finalmente, el tercer criterio para ponderar los resultados de la aplicacin de pruebas estadsticas
DESENLACE
ACCiDente Cerebro-vAsCulAr
FrACturA De CADerA
CnCer De seno
CnCer De enDoMetrio
rIESgo rELATIvo
pequeas variaciones. Hipotticamente, cada vez que se repita el estudio, se obtendra una prevalencia ligeramente diferente, pero el promedio de ellas correspondera a la verdadera prevalencia de la poblacin. Los IC le permiten al investigador, con los datos de una sola muestra, determinar los rangos dentro de los cuales estara la verdadera prevalencia de la poblacin con una confianza del 90%, 95% o 99%, segn se prefiera en el anlisis. Utilizando una frmula para obtener un IC del 95% en este ejemplo, con 100 estudiantes como tamao de muestra, los lmites de confianza iran entre 16,5% y 33,5%. Si se aumentara el tamao de muestra a 400 estudiantes, el IC del 95% sera menor, y por lo tanto ms preciso, estara entre 20,8% y 29,5%. El segundo ejemplo (2) se trata de un estudio publicado en la revista JAMA en 2002 por parte de los investigadores del grupo Womens Health Initiative, en el que mediante un experimento aleatorizado y controlado se midieron los efectos en el tiempo de la toma de estrgenos ms progestina (EP) en la salud de mujeres sanas posmenopusicas (Grfico 2).
Aunque el riesgo de cncer de seno parece estar aumentado, el lmite inferior del intervalo incluye el uno (no efecto), por lo que no se podra concluir en forma estadsticamente significativa que esta droga es verdaderamente un riesgo para esta enfermedad. Finalmente, en relacin con el cncer de endometrio, el estudio es poco informativo, pues el IC, adems de incluir el uno, es tan amplio que con el seguimiento se podra esperar cualquier cosa entre beneficio o riesgo. Los tres grandes requisitos necesarios de un estudio para poder vlidamente ponderar los
La representacin grfica es muy til para analizar los resultados. Por ejemplo, se puede apreciar que la ingesta de EP es un factor de riesgo para accidente cerebro-vascular (ACV). El mejor estimativo del riesgo est representado en el crculo que equivale a un riesgo relativo de 1,41, con un intervalo que va desde un riesgo tan bajo como 1,07 o tan alto como 1,85. Cuando se mira la relacin de la toma de EP con fracturas de cadera, sucede lo contrario; en este caso la medicacin tiene un factor protector, como se puede constatar al observar todo el intervalo por debajo de uno.
cALidAd
a un estudio es el necesario balance entre el riesgo y el beneficio que se debe asumir al aceptar o rechazar los resultados. As, entre ms alto sea el riesgo potencial y ms marginal el beneficio esperado, se precisa mayor seguridad de que el beneficio demostrado es real y no producto del azar, y por ello se requieren de niveles de significacin mayores (p<0,01). Si se encuentra un experimento clnico aleatorizado, donde se compara un nuevo frmaco para el tratamiento de la artritis reumatoidea (cido milagrnico) con el cido acetilsaliclico, y al cabo de dos aos de seguimiento se encuentra que hubo cuatro curaciones en el grupo de estudio (cido milagrnico) y ninguna en el grupo control (p<0,3, no significativo estadsticamente) y, adems, no hubo efectos colaterales y los efectos antiinflamatorios fueron iguales en los dos grupos, ser suficiente la evidencia? Debo darle cido milagrnico a los prximos pacientes que consulten por artritis reumatoidea? Para contestar estas preguntas el raciocinio que uno est obligado a hacer es: Cules son los beneficios potenciales? 10% de curacin para una enfermedad en que no se conoce tratamientos curativos, pero las diferencias no fueron estadsticamente significativas. Cules son los riesgos potenciales? En el estudio no se encontraron efectos colaterales en ninguno de los grupos y sabemos que el ASA s los tiene en el aparato digestivo. Cunta seguridad estoy dispuesto a cambiar por el beneficio? La respuesta a esta pregunta, que resume las dos anteriores, se ha denominado significacin clnica y es el ejercicio que diariamente hacemos en la prctica cuando decidimos cualquier intervencin mdica. As, optamos por administrar anticoagulantes, debemos aceptar un riesgo de sangrado para obtener el beneficio de prevenir una embolia pulmonar, o al indicar un determinado antibitico y su potencial nefrotoxicidad. Hoy en da, en medicina, estamos continuamente expuestos a que se utilice, de manera amaada, este concepto de significacin clnica, para inducirnos a utilizar productos cuya efectividad y seguridad no ha sido cientficamente comprobada, pero que bajo el concepto de que no hacen dao pretenden recomendar su utilizacin por el potencial, no comprobado, beneficio. Hablo, por supuesto, de buena parte de la medicina naturista que utilizando diseos de investigacin muy dbiles, ancdotas y, en la mejor de los casos reporte de casos, nos induce a pensar que cualquier beneficio, aunque no est demostrado, es aceptable dado el riesgo mnimo de la intervencin (lo natural no hace dao), aunque tampoco est demostrado. Tambin es frecuente en la literatura mdica la utilizacin tendenciosa del mtodo cientfico (seudociencia). Con pruebas insuficientes, desconocimiento de evidencias contrarias y usando diseos de investigacin inapropiados, pretenden demostrar unas diferencias y persuadirnos mediante la estadstica de aceptarlas. En resumen, los mtodos estadsticos no son herramientas para convencer o engaar y no sustituyen los dems criterios. Solamente cuantifican la posibilidad de que el azar nos induzca a aceptar lo falso como verdadero (error ) o a rechazar lo verdadero como falso (error ). Por ello deben utilizarse de la misma forma que un borracho usa el poste de la luz: no tanto para alumbrar como para ayudar a soportar.
(...) es frecuente en la literatura mdica la utilizacin tendenciosa del mtodo cientfico (seudociencia). Con pruebas insuficientes, desconocimiento de evidencias contrarias y usando diseos de investigacin inapropiados, pretenden demostrar unas diferencias y persuadirnos mediante la estadstica de aceptarlas.
Referencias
1. lozano JM, Dennis r. Medidas de frecuencia, de asociacin y de impacto. en ruiz A, Gmez C y londoo D, editores. investigacin clnica: epidemiologa clnica aplicada. bogot: Centro editorial Javeriano (CeJA); 2001. p. 95-112. 2. Fletcher r, Fletcher sW. Clinical epidemiology: the essentials. baltimore: lippincott; 2005.
Bibliografa
En el anlisis de un estudio hacemos lo mismo. Nos preguntamos cunto riesgo de que el resultado no sea verdadero (que las diferencias entre el grupo de estudio y el grupo control no sean reales) estoy dispuesto a asumir a cambio del beneficio potencial?
Gehlbach sH. interpreting the medical literature. new York: McGraw-Hill; 1993. sackett D, straus s, richardson Ws, rosemberg W, Haynes rb. evidence-based medicine: how to practice and teach ebM. new York: Churchill livingston; 2000. sackett Dl, Haynez rb, Guyat Gr, tugwell P. Clinical aepidemiology: a basic science fro clinical medicine. boston: little brown & Company; 1991.

Significación Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Significación Estadística

Cargado por

Copyright:

Formatos disponibles

cALidAd

Porque la diferencia fue ocasionada por el azar.

Grfico 1 IntervencIn del azar en la medIda de la longItud real de mIembroS InferIoreS

centro de gestin hospitalaria | vasALud | nmero 49 | Septiembre de 2009

centro de gestin hospitalaria | vasALud | nmero 49 | Septiembre de 2009

centro de gestin hospitalaria | vasALud | nmero 49 | Septiembre de 2009

centro de gestin hospitalaria | vasALud | nmero 49 | Septiembre de 2009

También podría gustarte