Está en la página 1de 4

Rev Chil Anest 2014; 43: 125-128

INFERENCIA ESTADÍSTICA: PRUEBAS DE HIPÓTESIS

Jorge Dagnino S.1

HipÓtesis DE TRABAJO
• En la inferencia estadística existen dos aproxi- E HIPÓTESIS NULA
maciones complementarias: pruebas de hipó-
tesis y estimación. Una hipótesis es una proposición que puede o
• La pruebas de hipótesis evalúan la probabili- no ser verdadera pero que se adopta provisional-
dad asociada a la hipótesis nula (H0) de que no mente hasta recabar información que sugiera lo
hay efecto o diferencia. contrario. Si hay inconsistencia, se rechaza la hipó-
• El valor de p obtenido refleja la probabilidad tesis. Las pruebas de hipótesis se usan precisamen-
de rechazar la H0 siendo esta verdadera; en te para evaluar el grado de esa inconsistencia.
ningún caso prueba que la hipótesis alternati- Se puede describir formalmente los pasos a se-
va, de que si hay efecto o diferencia, sea ver- guir:
dadera. 1) Formular la hipótesis y su alternativa. Normal-
• Error tipo I (α) es un falso negativo: rechazar mente la hipótesis de trabajo (por ejemplo, tal
H0 cuando esta es verdadera. tratamiento es mejor que el control o tal proce-
• Error tipo II (β) es un falso negativo, aceptar dimiento tiene menos morbilidad) es contrastada
H0 la cuando esta es falsa. con una hipótesis estadística que supone que no
• La potencia de un experimento o test describe existe tal efecto o tal diferencia. La razón para
la probabilidad de detectar una diferencia ver- hacer esto es que se puede calcular de antema-
dadera de una determinada magnitud. no la distribución de probabilidades asociadas
con tal situación. Esta hipótesis se conoce con el
nombre de hipótesis nula que se abrevia como H0
(Nullus: Nula, falto de valor y fuerza para obligar
o tener efecto). La expresión matemática es H0: m
Los datos obtenidos en el transcurso de una 1= m 2. La hipótesis alternativa es que el efecto sí
investigación médica frecuentemente son usados existe, que es distinto de cero, y que en algunos
para comparar el efecto de diferentes maniobras casos se puede especificar el signo de esa dife-
o situaciones: tratados versus no tratados, casos rencia. Normalmente corresponde a la hipótesis
versus controles o normales versus enfermos. Aun- de trabajo, se abrevia como H1 y tiene tres alter-
que existen numerosas alternativas para hacer esas nativas: µ 1≠ µ 2, µ 1< µ 2 o bien µ 1> µ 2.
comparaciones - que dependerán fundamentalmen- 2) Elegir la prueba estadística apropiada de acuer-
te del diseño experimental, del tipo de datos y es- do al diseño experimental, el tipo de datos y el
calas de medición, y del número de muestras - y a número de grupos que se comparan. La cifra que
pesar de la enorme variedad en el tipo de problemas resulta de usar la prueba (aplicar la o las fórmu-
médicos que pueden plantearse o de las soluciones las) en los datos recolectados se conoce como
estadísticas que se aplique, existen básicamente dos el estadístico del test en cuestión: z; estadístico
aproximaciones: pruebas de hipótesis y estima- t o de Student, la r de Pearson, F del análisis
ción. Vale la pena discutir algunos puntos de estas de varianza, c2. La distribución del estadístico
alternativas antes de elaborar sobre las pruebas es- puede ser calculada de antemano cuando la H0
tadísticas propiamente tales. es verdadera y por lo tanto conocer los valores

1
Profesor Titular, División de Anestesiología, Pontificia Universidad Católica de Chile.

125
J. Dagnino S.

que delimitarán distintas porciones del área bajo esa diferencia (m 1 ≠ µ 2) debe usarse una prueba
la curva de esa distribución; éstas se conocen de dos colas. Si se es capaz de especificar de ante-
como distribuciones de muestreo. Vale la pena mano el signo de ella (µ 1 < m 2 o bien µ 1> µ 2),
decir aquí, y lo reiteraremos luego, que las prue- se puede y se debe usar una prueba de una cola. El
bas de hipótesis en ningún caso prueban la ve- punto es importante pues el área crítica es mayor
racidad de la hipótesis alternativa o de trabajo, en este último caso lo que equivale a decir que se
limitándose a decir que no hay suficiente evi- puede rechazar con un valor menor del estadístico.
dencia para rechazar la hipótesis nula basándose Como veremos luego, esto equivale a aumentar la
en un nivel preestablecido de probabilidades. potencia de la prueba en cuestión.
3) Elegir el nivel de significación α de la prueba,
el límite para rechazar H0. En general, se acep- EL VALOR DE P
ta α = 0,01 ó 0,05, cifras que implican un 1%,
o un 5% respectivamente, de posibilidades de El valor de P es tan ubicuo y tan buscado en la
equivocarse cuando se rechaza H0, de decir que literatura médica que ha llegado a alcanzar poderes
hay una diferencia cuando en realidad no la hay. mágicos. Feinstein, en su estilo claro e irónico, co-
Este es el llamado error tipo I. menta sobre cómo un acto de juicio científico crítico
4) Calcular el valor de P. Esta es la probabilidad se convirtió en un templo numérico arbitrario, asom-
de obtener los resultados observados u otros brándose que la comunidad científica haya aceptado
más extremos si la H0 es verdadera, cifra que es tan livianamente una guía que no es ni confiable ni
determinada por el área de la distribución que efectiva. La P no es confiable porque depende abso-
queda más allá del valor calculado. lutamente del tamaño de la muestra y esto la hace
5) Si p es menor que α, rechazar H0 y aceptar la al- especialmente peligrosa en los trabajos epidemioló-
ternativa; en caso contrario, se acepta la hipótesis gicos. No importa cuan trivial o incluso estúpida sea
nula. El conjunto de valores que resultarían en el una hipótesis o cuan pequeña o inconsecuente sea la
rechazo de H0 - calculados conociendo la prue- diferencia que se analiza, los resultados pueden ser
ba usada, α y el número de observaciones - se estadísticamente significativos si se estudia un nú-
conoce con el nombre de región crítica (Figura mero suficiente de casos. La p no es efectiva como
1). Este punto puede refrasearse así: se rechaza guía de la decisión científica, pues el valor de P no
la H0 si el estadístico cae en la región crítica. En tiene que ver con la magnitud de la diferencia que se
los apéndices de los textos de estadística apare- estudia y, por cierto, la interpretación de significado
cen tablas con la distribución de estos estadísti- no debe leerse a partir del valor de P. Es intuitiva-
cos, dando el valor de p y donde el tamaño de la mente obvio que es un error interpretar un trabajo en
muestra se considera en los grados de libertad. forma muy diferente si P resulta 0,048 o bien 0,052.
Es necesario tener claro que se rechaza la hipóte-
Como se evalúa el estadístico calculando la sis nula porque es poco probable que sea verdadera
probabilidad de observar el valor encontrado u otro con los datos obtenidos. En ningún caso se está pro-
más extremo, el valor de P constituye la cola de bando la hipótesis alternativa de que sí hay efecto.
la distribución. Este concepto es importante pues Sólo se dice que la probabilidad de que el efecto ob-
permite entender qué significa un test de una cola o servado no exista realmente es tan baja que se acepta
de dos colas. Si la hipótesis de trabajo implica que que lo más probable es que efectivamente exista. A
existe una diferencia, sin especificar la dirección de la inversa, el rechazo de la hipótesis nula jamás im-

Figura 1. Distribución de un estadís-


tico, en este caso z, y decisión entre
la hipótesis nula o su alternativa. En
blanco, área de aceptación y som-
breada área crítica de rechazo de la
H0. En A, se destaca el área crítica en
un extremo o cola de la distribución
correspondiente a p = 0,05; en B, las
áreas se distribuyen por mitades en
los dos extremos o colas. Es aparente
que se necesita un valor menor del
estadístico para rechazar H0 cuando
se trata sólo de un extremo.

126 Rev Chil Anest 2014; 43: 125-128


INFERENCIA ESTADÍSTICA: PRUEBAS DE HIPÓTESIS

plica la comprobación de la igualdad. La distinción rencia verdadera es declarada estadísticamente


podría parecer sutil semánticamente pero es muy im- significativa. Es un verdadero positivo.
portante en la interpretación de los resultados. 2) Se acepta H0 cuando ésta es verdadera, no hay
Estas pruebas también se denominan de signifi- una diferencia estadísticamente significativa y
cancia pues los valores de P por sobre o debajo del en realidad no la hay. Un verdadero negativo.
límite se denominan como significativos, altamente
significativos o no significativos. Desgraciadamen- Las otras alternativas implican una incongruen-
te, su connotación estadística ha sido trasladada a cia entre la realidad y los resultados y, por lo tanto,
la clínica, creando mucha confusión entre lo que es constituyen errores.
estadísticamente significativo y lo que es clínica- 3) Se rechaza H0 cuando ésta es verdadera, conclu-
mente significativo. En cualquier caso, es indispen- yendo que hay una diferencia que en realidad
sable tener claro que lo que debe interesar es probar no existe, un falso positivo. Se ha cometido un
estadísticamente sólo aquellas diferencias que pue- error que se denomina de tipo I (α). La probabi-
den ser clínicamente importantes. En este sentido lidad de que ocurra este tipo de error es la que
sería mejor y científicamente correcto que se esta- se controla al establecer α y normalmente no va
bleciese, ya desde la formulación de la hipótesis, la más allá del 5%. Sin embargo, inadvertidamen-
magnitud de la diferencia que justificaría usar un te puede ser mayor cuando no se cumplen los
test de hipótesis y no al revés, en que se aplica éste requisitos necesarios para aplicar la prueba de
y después se intenta justificar la importancia de la hipótesis elegida: usar un test paramétrico cuan-
diferencia. La situación empeora pues con frecuen- do en realidad se debió usar uno no paramétrico,
cia ni siquiera se hace la justificación y autores y una prueba de una cola en vez de una de dos co-
lectores se convencen que la p hace la verdad. las o comparaciones múltiples con tests diseña-
Otro problema, derivado de la dependencia de P dos para comparar sólo dos medias o medianas.
para declarar un estudio significativo o no signifi- 4) Se acepta H0 cuando en realidad es falsa, un fal-
cativo, es lo que se denomina sesgo de publicación, so negativo, concluyendo que no hay diferencia
por el que con mayor frecuencia son publicados o cuando en realidad existe. Este es el error tipo
enviados a publicación los trabajos con una P sig- II (β), que la mayoría de las veces se debe a un
nificativa comparados con los negativos. Ello es tamaño insuficiente de la muestra. La probabili-
especialmente importante a la hora de revisiones de dad de cometer un error tipo II es β cuyo valor
la literatura y particularmente cuando se usan los depende de la magnitud del efecto de interés y
hoy tan en boga metanálisis. El aceptar los resulta- del tamaño de la muestra. Sin embargo, es más
dos de éstos sin otras consideraciones podría estar frecuente hablar de la potencia de la prueba para
generando otro tipo de mitos o errores. detectar un efecto de un tamaño determinado.
Por otro lado, una P grande se asemeja mu-
cho al fracaso y se habla de resultados negativos Estos dos errores deben ser considerados al eva-
cuando en realidad podrían ser muy positivos para luar el resultado de un trabajo de investigación que
los enfermos pues podrían ahorrarse tratamientos haya empleado pruebas de hipótesis, considerando
costosos y riesgosos que no sirven. También se ha la posibilidad de un error I cuando los resultados
criticado el uso o mal uso de la expresión “fracaso son significativos y de un error tipo II cuando son
en alcanzar significación estadística” como si eso no significativos. La Tabla 1 resume la relación en-
fuese un pecado o demostración de ineficiencia. tre los resultados de una prueba de hipótesis y la
realidad.

CONCLUSIONES Y ERRORES POTENCIA


DE UN TEST DE HIPÓTESIS
La potencia de un test es igual a 1- β y describe
Frente a dos posibilidades reales, no hay di- la probabilidad de detectar una diferencia verdade-
ferencias (H0) o bien sí las hay (H1), las pruebas ra de una magnitud determinada. Mientras mayor
de hipótesis pueden dar dos resultados: rechazar o es la potencia de un test menor es la probabilidad
aceptar H0. En estas circunstancias, en forma análo- de tener un falso negativo. Frente a cada resultado
ga a lo que sucede con los exámenes de laboratorio no significativo debe considerarse la posibilidad de
diagnósticos, las alternativas son cuatro. Dos no un error tipo II y la potencia de la prueba usada para
constituyen más que la coincidencia entre la reali- evaluar la diferencia. En otras palabras, una prueba
dad y el resultado de las pruebas: tiene una elevada potencia cuando tiene una escasa
1) Se rechaza H0 cuando ésta es falsa, una dife- probabilidad de rechazar la hipótesis nula cuando

Rev Chil Anest 2014; 43: 125-128 127


J. Dagnino S.

Tabla 1. Relación entre los resultados de una prueba de hipótesis y la realidad


Situación verdadera
Hay diferencia (H1) No hay diferencia (H0)
PRUEBA Significativa Verdadero (+) Falso (+)
(Rechaza H0) Conclusión correcta Error I o error b
Potencia 1-b
No significativa Falso (-) Verdadero (-)
(Acepta H0) Error II o error b Conclusión correcta

ésta es verdadera, pero una gran posibilidad de re- 4) Disminuir la variabilidad con mediciones más
chazarla cuando ésta es falsa. precisas o escogiendo muestras más homogé-
Para calcular la potencia de un test es necesario neas.
conocer la magnitud de la diferencia, la variabilidad 5) Hacer la mayor cantidad de presunciones váli-
y el tamaño de la muestra. En la planificación de das posibles (por ejemplo, el test de 1 cola es
un trabajo se debe estimar el tamaño de la muestra más potente que el de 2 colas).
usando para ello una estimación de la diferencia es- 6) Usar la prueba de mayor poder aplicable al caso
perada y clínicamente significativa, la variabilidad en cuestión (por ejemplo, un test paramétrico
esperada y decidir cuál es el error β que se declarará tiene mayor poder que uno no paramétrico).
aceptable (usualmente 20% lo que en muchas cir-
cunstancias es excesivo). Las cifras de diferencia y Existe un caso frecuente de error tipo II que se
variabilidad se pueden obtener de trabajos en áreas da al evaluar la seguridad de un tratamiento o pro-
similares en la literatura o bien desarrollar un piloto cedimiento en término de los efectos adversos o la
que permita hacer la estimación. morbimortalidad. Cuando éstos tienen una baja in-
Para aumentar la potencia de un test hay diver- cidencia, es frecuente que en una serie relativamen-
sas alternativas: te pequeña no aparezcan casos del evento, hecho
1) Como existe una relación inversa entre α y β, se que muchas veces es interpretado como hallazgo
puede aumentar la potencia elevando el nivel de negativo y la droga o el procedimiento son cata-
significación. Es la peor alternativa pues impli- logados como seguros. Debe quedar muy claro el
ca aumentar la posibilidad de un error tipo I. hecho que un numerador de cero no significa que
2) Considerar sólo diferencias mayores concen- no exista riesgo y no impide que se puedan hacer
trándose sólo en aquellas médica o biológica- estimaciones sobre la magnitud de ese riesgo. De
mente relevantes, algo que debería estar siem- hecho, los principios de estadística inferencial que
pre presente desde el inicio. se aplican a numeradores distintos de cero también
3) Aumentar el tamaño de la(s) muestra(s), lo que se aplican cuando este es cero. Por ser un problema
aumenta el costo y la duración de la investiga- de estimación, será analizado en el artículo corres-
ción. pondiente.

REFERENCIAS D.F: Manual Moderno, 1993. 29: 71-73.


6. Freiman JA, Chalmers TC, Smith 10. Portney LG, Watkins MP. Founda-
1. Altman DG. Practical Statistics for H Jr, Kuebler RR. The importance tions of Clinical Research. Appli-
Medical Research. London: Chap- of beta, the type II error and sample cations to practice. 2nd ed. Upper
man & Hall, 1991. size in the design and interpretation Saddle River: Prentice-Hall, 2000.
2. Bland JM, Altman DG. One and of the randomized control trial. 11. Siegel S. Non parametric statistics
two sided tests of significance. Survey of 71 “negative” trials. for the behavioral sciences. New
BMJ 1994; 309: 248. NEJM 1978; 299: 690-694. York: McGraw-Hill, 1956.
3. Bland M. An Introduction to Medi- 7. Glantz SA. Primer of Biostatistics. 12. Sterne JA, Smith GD. Sifting the
cal Statistics. 3rd Ed, Oxford: OUP, 3a edición, New York: McGraw- evidence-what’s wrong with sig-
2006. Hill, 1992. nificance tests?. BMJ 2001; 322:
4. Browner WS, Newman TB. Are all 8. Goodman SN. Toward Evidence- 226-231.
significant P values created equal? Based Medical Statistics. 1. The
The analogy between diagnostic P Value Fallacy. Ann Intern Med
tests and clinical research. JAMA 1999; 130: 995-1004.
1987; 257: 2459-2463. 9. Holland BK. A Classroom Correspondencia a:
5. Dawson-Saunders B, Trapp RG. Demons­tration of Hypothesis Dr. Jorge Dagnino S.
Bioestadística Médica. México Testing. Teaching Statistics 2007; jdagnino@med.puc.cl

128 Rev Chil Anest 2014; 43: 125-128

También podría gustarte