Está en la página 1de 5

Significacin estadstica y significacin

clnica.
Introduccin
La necesidad creciente por investigar genera preguntas a contestar cada vez ms
complejas. Hoy en da el uso de trminos estadsticos y epidemiolgicos invade la
literatura mdica. La importancia de la estadstica es tal, que muchos de los trabajos y
de las conclusiones procedentes de la investigacin, se deben respaldar en ella.
En la actualidad la estadstica ha experimentando un importante avance gracias a las
nuevas tecnologas y los potentes medios informticos que permiten el manejo de
grandes volmenes de datos. Desgraciadamente todos estos avances tambin han
provocado que en los ltimos aos haya disminuido la accesibilidad y la capacidad de
lectura crtica de los profesionales sanitarios. Muchos investigadores tienen dificultades
a la hora de planificar un proyecto de investigacin adecuado que responda a su
pregunta de estudio por falta de formacin estadstica y metodolgica.
Hoy en da se hace imprescindible la ayuda de profesionales cualificados en estadstica
y epidemiologa que proporcionen apoyo y asesoramiento a los investigadores en la
planificacin de los estudios en todas sus fases, as como en el diseo, anlisis e
interpretacin de la los resultados.
Qu quiere decir significativo?
Para algunos investigadores, la estadstica es un fin ms que un medio para encontrar
respuesta a sus preguntas. Qu trabajo estadstico de una publicacin cientfica no
viene acompaado por una P?. Es ms, en muchas ocasiones su trabajo solo tiene
sentido o es relevante si esta P es menor de cierto valor: 0,05. Pero, realmente que es la
P? cmo se debe interpretar?
Lo primero que debemos hacer es diferenciar dos conceptos totalmente distintos:
significativo e importante. El trmino significativo suele generar confusin y no
muchos investigadores lo comprenden bien. En general, cuando hablamos que algo es
significativo, implica que es importante o destacado. Sin embargo, en la terminologa
estadstica, un resultado significativo quiere decir altamente improbable, pero no
necesariamente tiene que ser importante.
Muchas veces, por desconocimiento o por pereza mental, solemos utilizar ambos
trminos cmo equivalentes. A pesar de las muchas advertencias de los estadsticos y
epidemilogos sobre la importancia de diferenciar ambos conceptos, sigue habiendo
cierta confusin. Es fcil poner ejemplos en los que podemos ver como estadsticamente
significativo no quiere decir necesariamente importante o relevante. La significacin
indica una asociacin o diferencia entre variables que difcilmente se puede explicar por
el azar, aunque esta asociacin no indica por s sola causalidad1.
Antes de empezar un trabajo de investigacin se debe hacer el esfuerzo por definir la
magnitud de lo que vamos a considerar clnicamente importante: una diferencia de

proporciones del 5%, una reduccin del riesgo relativo del 40%, un coeficiente de
correlacin de 0,6, etc. Debe ser el propio investigador el que ha de decidir lo que
entiende por importante. La relevancia vendr determinada por la gravedad del
problema, la morbimortalidad generada, el coste, etc2. Despus de analizar los datos,
obtendremos unos resultados que podrn ser o no estadsticamente significativos.
Medidas como el nmero necesario de pacientes a tratar (NNT) o la reduccin relativa
del riesgo (RRR) nos pueden servir de ayuda para valorar la relevancia clnica de
nuestros hallazgos. Veamos un ejemplo y de paso recordaremos cmo funcionan los test
de hiptesis.
Los dos tipos de errores estadsticos
Supongamos que disponemos de dos tratamientos (A y B) para una misma enfermedad,
y deseamos conocer cual de ellos es mejor. Al mismo tiempo vamos a considerar como
mejor si la diferencia que hay entre ambos es de al menos un 10% en el porcentaje de
enfermos curados. Acabamos de definir lo que entendemos por diferencia clnicamente
importante: un 10%. Realizado el experimento en 40 personas y despus de aleatorizar
los tratamientos A y B en dos grupos se obtienen los resultados de la Tabla I.
Tabla I. Resultados en una muestra de 40 pacientes.
Curacin
Si
No
Total

Tratamiento
A
6 (30%)
14 (70%)
20

Tratamiento
B
12 (60%)
8 (40%)
20

p
0,057

Con el tratamiento A se curaron 6 personas (30%) mientras que con el B se curaron 12


(60%). Como podemos ver la diferencia de curaciones observada entre uno y otro del
30% es muy superior al 10% que previamente nos habamos fijado como importante.
Utilizando la prueba ji-cuadrado de Pearson adecuada para comparar proporciones,
obtenemos una p=0,057. La p es una probabilidad, un valor continuo que va desde 0
hasta 1. Para nuestra desgracia es un resultado no significativo, si tomamos como
umbral de significacin el famoso valor de p=0,05. Nos encontramos ante un ejemplo
de una diferencia clnicamente muy importante pero estadsticamente no significativa.
La formulacin del problema desde el punto de vista estadstico con los test de hiptesis
es la siguiente:

Hiptesis nula (Ho)= Los tratamientos A y B son iguales, o tienen la misma


eficacia.
Hiptesis alternativa (H1)= Los tratamientos son distintos.

La Hiptesis nula (Ho) es una afirmacin que hacemos sobre una o ms caractersticas
de la poblacin y que ponemos a prueba mediante una prueba estadstica. Suele ser la
que mantiene que no existe asociacin o que las diferencias encontradas pueden ser
explicadas por el azar. La Hiptesis alternativa es la que cogemos cuando rechazamos la
Ho. Como vemos ambas son excluyentes, o cogemos una o la otra. En nuestro ejemplo
no podramos rechazar la hiptesis nula (p>0,05) y por lo tanto debemos concluir que
no hay evidencia suficiente para decir que un tratamiento es mejor que otro.

Es el momento de recordar los dos tipos de error que podemos cometer al decidirnos por
considerar como cierta cualquiera de las dos hiptesis:
Error Tipo I (?): Es el que estamos cometiendo al rechazar la hiptesis nula cuando en
realidad es verdadera. Decir que hay diferencias o asociacin cuando en realidad no es
as.
Error Tipo II (?): Sucede al aceptar la hiptesis nula cuando en realidad es falsa. Decir
que no hay diferencias o asociacin, cuando realmente s las hay. Aqu tambin
hablamos de potencia de un test o de capacidad para encontrar una diferencia o
asociacin que realmente existe, que se calcula como 1- ??
La veracidad de la H0 no se demuestra nunca, si al comparar los dos grupos decimos que
no hemos encontrado diferencias estadsticamente significativas y nos quedamos con la
Ho, no podremos afirmar que los grupos son iguales.
La probabilidad de cometer un error tipo I es el valor de la p, que en el ejemplo de la
Tabla I era de 0,057. Sin embargo el valor de p no nos informa en absoluto de la
probabilidad de cometer un error tipo II. El valor de p nos indica que tenemos un 5,7%
de probabilidad de haber encontrado en nuestro experimento esas diferencias u otras an
mayores entre los frmacos A y B cuando en realidad los dos tienen la misma eficacia.
Esto nos ha pasado en una muestra de 40 pacientes, pero si hubiramos hecho un
estudio con el doble de pacientes y hubisemos obtenido los resultados de la Tabla II,
obtendramos una p de 0,007 que ahora sera un resultado significativo. Las diferencias
siguen siendo las mismas: con el frmaco A se han curado el 30% de pacientes mientras
que con el frmaco B se han curado el 60%. El valor de p lo podemos interpretar
como la probabilidad de encontrar esa diferencia u otra an mayor, si la hiptesis nula
de igualdad fuese cierta.
Tabla II. Resultados en una muestra de 80 pacientes.
Curacin
Si
No
Total

Tratamiento
A
12 (30%)
28 (70%)
40

Tratamiento
B
24 (60%)
16 (40%)
40

p
0,007

La p mide probabilidad, no asociacin


Al aumentar el tamao muestral conseguimos aumentar la precisin de nuestras
mediciones y disminuir la variabilidad explicada por el azar. Por eso, ante la misma
diferencia pero con un mayor tamao muestral hemos conseguido reducir el valor de la
p de 0,057 a 0,007. Como vemos el valor de p depende no solo de la diferencia de los
grupos de estudio, sino del tamao muestral. Siempre podemos encontrar diferencias
estadsticamente significativas con un tamao muestral lo suficientemente grande
aunque las diferencias sean muy pequeas e irrelevantes desde un punto de vista clnico
o cientfico. Sirva como ejemplo la Tabla III. Como conclusin podemos decir que la p
no es una medida de asociacin, tan solo de azar y por ello se ve muy influenciada por
el tamao muestral.

Tabla III. Muestra de 10000 pacientes.


Curacin
Si
No
Total

Tratamiento
C
4000 (80%)
1000(20%)
5000

Tratamiento
D
3900 (78%)
1100 (40%)
5000

p
0,014

Despus de estos ejemplos tambin podemos deducir ciertas debilidades de las pruebas
de hiptesis y de la debilidad de tomar una decisin dicotmica en funcin del valor de
una p mayor o menor de 0,05. Hemos visto que con pocos casos como en el ejemplo de
la Tabla I no podamos llegar a encontrar diferencias estadsticamente significativas a
pesar de tener una diferencia importante entre ambos tratamientos, mientras que cuando
tenemos un tamao muestral muy grande como en la Tabla III, obtenemos una p
significativa an siendo estas diferencias muy pequeas. A efectos prcticos, lo que nos
interesa conocer es la magnitud de la diferencia, y para esto la p carece por completo de
utilidad3.
Por convenio o arbitrariedad, se han establecido como valores de significacin
estadstica aquellos valores de p por debajo de 0,05 0,01. Cuando un investigador
asume como nivel de significacin el valor de 0,05 quiere decir que est dispuesto a
asumir un riesgo de equivocarse de hasta el 5% de las veces al coger la H1 y decir que
los dos grupos son diferentes cuando en realidad es que son iguales.
Los intervalos de confianza
Como vemos con la p no tenemos una idea de la magnitud ni de la precisin del efecto
observado. Desde hace algn tiempo se recomienda insistentemente el uso de los
intervalos de confianza acompaando o incluso sustituyendo a los valores de la p, ya
que esta herramienta s que nos aporta informacin sobre la magnitud y la precisin del
efecto4. El intervalo de confianza construido a partir de una muestra, es un rango de
valores mnimo y mximo entre los cuales esperamos que se encuentre el verdadero
valor del parmetro que tratamos de estimar. En las distribuciones normales los
intervalos de confianza se construyen sumando y restando a la media su error estndar
multiplicado por dos para obtener intervalos de confianza del 95%. Con los resultados
de nuestra muestra, podemos construir intervalos de diferente amplitud en funcin de la
confianza deseada, pero cuanta ms confianza deseemos, ms anchos sern nuestros
intervalos y menor informacin estaremos dando. Normalmente los intervalos se
construyen con un 95% o 99% de confianza, la amplitud de los intervalos tambin
depender de la variabilidad o desviacin estndar de las observaciones de nuestra
muestra. Un intervalo de confianza del 95% quiere decir que si repitiramos nuestro
experimento con 100 muestras distintas, en 95 veces nuestro intervalo de confianza
incluira el verdadero parmetro poblacional que tratamos de estimar. Vemoslo con los
ejemplos de la Tabla I y la Tabla II:
Ejemplo 1, Tabla I: Diferencia entre curacin tratamiento B y A= 30%, IC95%(-4%;
64%); p=0,057 con n=40 pacientes.
Ejemplo 2, Tabla II: Diferencia entre curacin tratamiento B y A= 30%, IC95%(7%;
53%); p=0,007 con n=80 pacientes.

Podemos ver que ambos intervalos de confianza del 95% tienen amplitudes distintas, en
el segundo caso el intervalo es ms estrecho porque el tamao muestral es mayor.
Tambin podemos hacernos una idea de la magnitud de la diferencia entre ambos
tratamientos. En el primer caso, el intervalo de confianza incluye al cero, y la p es
mayor de 0,05 por lo que no podemos descartar que no haya diferencias entre ambos
tratamientos. En el segundo caso, el intervalo no abarca el 0 y la p es menor de 0,05. Si
uno de los extremos del intervalo es exactamente 0, la p tendr un valor de 0,05.
REFERENCIAS
1 Ramalle-Gmara, E. and R. Bermejo-Ascorbe (1996). El significado de lo
significativo. Algunas consideraciones sobre los test de significacin y el uso del valor
p. Atencin primaria 14(5): 863-865.
2 Pita Fernndez, S. and S. Prtega Daz (2001). http://www.Fisterra.com. Significancia
estadstica y relevancia clnica. Cad Aten Primaria 8: 191-195.
3 Clark, M. L. (2004). Los valores de P y los intervalos de confianza. Rev Panam Salud
Publica 15(5): 293-6.
4 Gardner, M. J. and D. G. Altman (1986). Confidence intervals rather than P values:
estimation rather than hypothesis testing. Br Med J (Clin Res Ed) 292(6522): 746-50.