Está en la página 1de 5

Metodologa de la Investigacin Conceptos Bsicos de Estadstica

Pgina 17
SU I.2.5: Inferencia estadstica: vocabulario y metodologa
La metodologa bsica de la inferencia estadstica, mtodos de estimacin y de contraste de hiptesis,
se ha esbozado en la subunidad anterior, aplicndola al anlisis estadstico de una proporcin. Aqu se
desarrolla con algo ms de detalle, introduciendo todo el vocabulario tcnico necesario y los conceptos
tericos de la inferencia estadstica.
Esta metodologa se aplica en las siguientes subunidades a otras situaciones prcticas de inters.

Contrastes de hiptesis
La respuesta a una pregunta concreta sobre el parmetro, o parmetros, de inters se obtiene
planteando y resolviendo un contraste de hiptesis. El contraste consiste en elegir entre dos hiptesis: La
hiptesis nula asume que la cuestin planteada es correcta, la hiptesis alternativa asume lo contrario.
En el ejemplo resuelto en la subunidad anterior la hiptesis nula era la proporcin de xitos en la
poblacin es 0.6, = 0.6, y la hiptesis alternativa que la proporcin de xitos es distinta de 0.6, 0.6.
Otra situacin muy frecuente en estudios experimentales es cuando se desea comparar dos grupos, tratado y
control, utilizando una medida continua como variable principal, el ndice de masa corporal por ejemplo. En
esas situaciones la hiptesis nula es las poblaciones control y tratada tienen la misma media,
C
=
T
, y la
hiptesis alternativa es las medias de las poblaciones control y tratada son distintas,
C

T
. La media de
una poblacin suele representarse con la letra griega ; si hay ms de una poblacin se utilizan subndices,
como en este caso que hay dos poblaciones: tratada, T, y control, C.
El estadstico de contraste es un resumen numrico de los datos que proporciona toda la informacin
que los datos pueden dar para resolver el contraste de hiptesis. En el estudio de una proporcin el
estadstico de contraste tiene que ser r, el nmero de xitos, pues es el nico resumen numrico de los datos
que tiene sentido: las variables dicotmicas son categricas, luego las frecuencias son los nicos resmenes
numricos que tienen sentido. Sin embargo, si la variable objetivo es numrica como en el contraste de
comparacin de medias, son muchos los resmenes numricos que podran utilizarse como estadsticos de
contraste. La Estadstica Matemtica proporciona herramientas tericas para elegir el estadstico de
contraste adecuado en cada situacin. El estadstico t-Student para dos muestras es el ms adecuado para
comparar las medias de dos poblaciones si estas siguen una distribucin Normal o si los dos tamaos
muestrales son grandes.
La distribucin en el muestreo del estadstico de contraste es la distribucin predictiva de ese
estadstico en una nueva muestra del mismo tamao que la actual, suponiendo que las condiciones
especificadas en la hiptesis nula son las correctas. Con esa distribucin se determinan los valores del
estadstico que puedan considerarse menos compatibles con la hiptesis nula. Para ello el investigador debe
fijar un nivel de significacin , que es una cota superior de la probabilidad de rechazar errneamente la
hiptesis nula, y seleccionar la regin crtica asociada a ese nivel de significacin.

-Figura 1. Dos ejemplos de distribuciones en el muestreo y las regiones crticas para el nivel de significacin 0.05.-
La Figura 1 contiene dos distribuciones en el muestreo: a la izquierda la distribucin en el muestreo del
nmero de xitos en una muestra de tamao 100 con probabilidad de xito = 0.6; a la derecha la
distribucin en el muestreo del estadstico t-Student para dos muestras de tamaos 50 y 45 y bajo la
hiptesis nula de igualdad de medias. Ambas grficas muestran, en color oscuro, la regin crtica para =
0.05
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 18
La regin crtica proporciona la regla de decisin que resuelve el contraste. Si el estadstico de
contraste calculado con los datos observados pertenece a la regin crtica se rechaza la hiptesis nula. En
otro caso no se rechaza.

El concepto de p-valor
Las regiones crticas son un elemento fundamental en la resolucin de un problema de contraste de
hiptesis pero su utilizacin directa tiene un grave inconveniente: la regin crtica depende del nivel de
significacin. La Figura 2 muestra las regiones crticas para tres niveles de significacin distintos, la hiptesis
nula es porcentaje de xitos igual al 50% y la muestra tiene un tamao 100.

-Figura 2. Regiones crticas para diferentes niveles de significacin.-
Si se resuelve un contraste con un nivel de significacin y posteriormente se decide cambiar el nivel,
habra que rehacer todos los clculos. Como alternativa se utiliza el p-valor.
El p-valor es la probabilidad de la regin crtica para la que el estadstico de contraste observado est
en la frontera. As por ejemplo, si en una muestra de tamao 100 se han observado r = 47 xitos y se desea
contrastar la probabilidad de xito = 0.6, se construye la regin crtica que contenga todos los valores de r
tan poco probables como el valor observado r = 47. La probabilidad de esa regin crtica es el p-valor. La
Figura 3 muestra esa regin crtica, su rea permite calcular el p-valor, en este caso p-valor = 0.0104

-Figura 3. Clculo del p-valor: regin crtica en la que el estadstico de contraste observado est en su frontera.-
Construido de esa manera, la utilizacin del p-valor es sencilla. Un resultado es estadsticamente
significativo a nivel si el p-valor es menor o igual que . En otro caso el resultado no es significativo, por lo
que no se rechaza la hiptesis nula. As, con el p-valor ya est resuelto el contraste para cualquier nivel de
significacin que se desee utilizar.
La mayor parte de los resultados estadsticos publicados en revistas cientficas estn basados en algn
p-valor, a partir del cual se extraen las conclusiones del estudio. De ah la importancia del concepto de p-
valor. Sin embargo el p-valor tiene algunas debilidades que es preciso sealar.
El p-valor se calcula como una probabilidad, pero no es ninguna probabilidad sobre la hiptesis nula.
No es la probabilidad de la hiptesis nula, ni es la probabilidad de rechazar la hiptesis nula cuando es
correcta, esas son interpretaciones errneas del p-valor.
En ocasiones, un p-valor muy pequeo se ha interpretado como que la realidad est muy alejada de la
hiptesis nula, lo cual es completamente errneo. El p-valor tiene que ver con la cantidad de informacin
disponible, por eso depende mucho del tamao muestral, si se aumenta el tamao muestral incrementando
la informacin disponible el p-valor se hace ms pequeo. Por ello, un resultado estadsticamente muy
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 19
significativo (un p-valor muy pequeo) no tiene porque ser clnicamente significativo. Por ejemplo, si dos
poblaciones se diferencian en los valores medios de ndice de masa corporal en tan slo una centsima, esa
diferencia puede no tener ninguna relevancia clnica pero un test de comparacin de medias aplicado a
muestras muy grandes detectar esa diferencia proporcionando un p-valor muy pequeo.

Potencia de un contraste y tamao muestral
Todo contraste de hiptesis se resuelve decidiendo entre rechazar o no rechazar la hiptesis nula.
Como esa decisin se toma sin disponer de informacin perfecta, por tanto bajo incertidumbre, ambas
decisiones pueden resultar errneas. Si la decisin es rechazar la hiptesis nula se cometera un error si dicha
hiptesis fuera correcta, es lo que se conoce como Error de Tipo I. Pero si no se rechaza la hiptesis nula
tambin se cometera un error si dicha hiptesis fuese correcta, ese es el Error de Tipo II.
La prctica habitual de slo tener en cuenta el error de tipo I, estableciendo un nivel de significacin
bajo, y no considerar el error de tipo II en la toma de decisiones conlleva un trato de favor hacia la hiptesis
nula. La hiptesis nula suele representar una especie de status quo que la comunidad cientfica no quisiera
cambiar a no ser que existieran razones de mucho peso para ello, la hiptesis alternativa es el cambio en el
status quo que propone el investigador; por ejemplo cuando se quiere demostrar que un nuevo tratamiento
es mejor que el utilizado en la actualidad. Slo de existir suficiente evidencia a favor de la hiptesis
alternativa se rechaza la nula. Esa situacin es similar a la que ocurre en los juzgados cuando se dicta una
sentencia de no culpable; dicha sentencia no significa que se haya demostrado la inocencia, significa que no
se ha podido demostrar la culpabilidad. En esas situaciones, inocencia sera la hiptesis nula y culpabilidad la
alternativa.
Por el contrario, el equipo que ha planteado la investigacin experimental lo ha hecho con el objetivo
de poder rechazar la hiptesis nula. Lo que le preocupa es no poder hacerlo, especialmente cometiendo un
error de tipo II; es decir, que realmente sea incorrecta la hiptesis nula pero que el experimento no aporte
suficiente evidencia para poder rechazarla. La forma de medir el error de tipo II es mediante la funcin de
potencia, que proporciona las probabilidades de rechazar la hiptesis nula a diferentes distancias de la
misma.
Continuando con el contraste sobre una proporcin utilizado como ejemplo hasta el momento (una
muestra de tamao 100 para contrastar la hiptesis nula = 0.6 frente a la alternativa 0.6, utilizando =
0.05) la regin crtica son los valores de r 49 o r 71, siendo r el nmero de xitos. La distribucin en el
muestreo y la regin crtica de ese ejemplo estn dibujadas en la grfica de la izquierda de la Figura 1. Como
ejemplo de clculo de la funcin de potencia, en la Figura 4 se presentan las distribuciones en el muestreo en
dos puntos distintos de la hiptesis alternativa, = 0.7 en la grfica de la izquierda y = 0.8 en la de la
derecha. En ambas se ha dibujado en color oscuro la regin crtica del contraste: r 49 o r 71.

-Figura 4. Dos escenarios distintos de la hiptesis alternativa. La probabilidad del rea de color oscuro es la potencia.-
Si = 0.7, la probabilidad de rechazar la hiptesis nula es la probabilidad de la regin sombreada en la
grfica de la izquierda de la Figura 4, que vale 0.46; ese es el valor de la funcin de potencia en = 0.7. La
probabilidad de no rechazar la hiptesis nula y cometer un error de tipo II es uno menos la funcin de
potencia; en este caso 1 0.46 = 0.54, una probabilidad de error excesivamente alta. Sin embargo, la
potencia en = 0.8, que es la probabilidad del rea sombreada en la grfica derecha de la Figura 4, vale 0.99,
luego la probabilidad de error de tipo II es tan slo 0.01. Por tanto, la solucin al contraste dada por esa
regin crtica puede ser muy til si se sospecha que l verdadero valor de est tan alejado de la hiptesis
nula como 0.8; en ese caso el test es muy potente: probabilidades de error de tipo II pequeas. Pero ese
contraste no servira para distinguir entre = 0.6 y = 0.7.
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 20
Aumentando el tamao muestral se pueden disminuir a la vez las probabilidades de error de los dos
tipos. De hecho, el clculo del tamao muestral suele hacerse fijando de antemano el nivel de significacin y
la potencia que se desea obtener. En concreto, una vez planteada la hiptesis nula, por ejemplo = 0.6, se
fija un nivel de significacin, un punto en la hiptesis alternativa que se considere razonable, por ejemplo =
0.7, y la potencia en ese punto; a partir de esos valores se obtiene el tamao muestral. Como nivel de
significacin suele utilizarse = 0.05 y como potencia 0.9 que significa un error de tipo II = 0.1, suele
emplearse la letra griega para denotar esa probabilidad de error.

Test diagnsticos y contrastes de hiptesis
Los contrastes de hiptesis tienen un claro paralelismo con los test diagnsticos. El nivel de
significacin, o el p-valor, son medidas similares a la probabilidad de falso positivo en un test diagnstico. Sin
embargo, para valorar la utilidad de cualquier test diagnstico tambin es necesario considerar su
probabilidad de un falso negativo; el equivalente en los contrastes de hiptesis es la potencia del contraste.
Por eso es necesario exigir a las reglas de contraste de hiptesis que sean potentes, que su potencia sea
grande para asegurar que el error de tipo II (el falso negativo) sea poco probable.
Si se conocen las probabilidades de falso positivo y falso negativo de un test diagnstico, y tambin la
incidencia de la enfermedad, es posible calcular la probabilidad de que un paciente al que el test le ha dado
positivo est realmente enfermo. Para ello se utiliza el Teorema de Bayes. En contrastes de hiptesis
tambin puede hacerse algo parecido, obteniendo la probabilidad de la hiptesis nula, utilizando tcnicas de
Estadstica Bayesiana.

Contrastes unilaterales
Todos los ejemplos de contrastes de hiptesis utilizados hasta ahora han sido bilaterales. En ellos se
plantea una hiptesis nula de igualdad frente a una alternativa de desigualdad, dos medias iguales frente a
dos medias distintas por ejemplo; en la hiptesis alternativa se incluye el menor que y el mayor que. Los
contrastes unilaterales, por el contrario, asignan cada lado a una de las hiptesis: la hiptesis nula indica
menor o igual que y la alternativa mayor que, o al revs.
Con los contrastes unilaterales se obtienen p-valores ms pequeos, lo que puede levantar sospechas
sobre la honestidad del investigador: Realmente se requera un contraste unilateral o se ha utilizado para
obtener un p-valor ms pequeo y poder rechazar la hiptesis nula? Por ello, en aplicaciones mdicas casi
nunca se utilizan contrastes unilaterales. En la gua Statistical Principles for Clinical Trials (una de las guas
armonizadas de las agencias responsables de la investigacin mdica en USA, Europa y Japn), se
desaconseja su uso y, de utilizarse, se propone que el nivel de significacin utilizado sea la mitad que para los
contrastes bilaterales. Esa reduccin del nivel de significacin, en la prctica, es equivalente a resolver el
contraste bilateral.
En esta unidad, todos los contrastes de hiptesis planteados sern bilaterales.

Intervalos de confianza
Como se ha comentado con anterioridad, un p-valor muy pequeo no significa que las diferencias sean
grandes, lo que significa es que los datos proporcionan suficiente informacin para detectar claramente las
diferencias existentes. Si lo que se desea es cuantificar un parmetro desconocido, la diferencia entre dos
medias poblacionales por ejemplo, hay que construir un intervalo de confianza sobre ese parmetro.
La interpretacin de un intervalo de confianza es frecuentista. Si siempre se van a usar intervalos con
un nivel de confianza del 95%, el 95% de todos los intervalos construidos incluirn en su interior al verdadero
valor del parmetro, slo el 5% de esos intervalos sern errneos dejando fuera de ellos al verdadero valor.
Sin embargo, una vez construido un intervalo, ya no se puede hablar de probabilidades, tan slo hay una
confianza en que sea de los intervalos correctos.
No es cierto que la probabilidad de que el verdadero valor pertenezca al intervalo de confianza al 95%
sea 0.95. Esa es una interpretacin incorrecta del intervalo de confianza. S que sera la interpretacin
adecuada si se hubieran utilizado mtodos de estadstica bayesiana.
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 21
Los intervalos de confianza todava se estn utilizando mucho menos de lo que sera conveniente.
Quiz por ello el Comit Internacional de Editores de Revistas Mdicas, en su documento sobre Uniform
Requirements for Manuscripts (http://www.icmje.org/), slo dedica a los mtodos estadsticos un prrafo del
que ms de la mitad lo constituye el siguiente extracto:
When possible, quantify findings and present themwith appropriate indicators of measurement error
or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such
as P values, which fail to convey important information about effect size

También podría gustarte