Está en la página 1de 23

Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

TEMA 3. LECCIÓN 13 y 14: INTERVALOS DE


CONFIANZA y CONTRASTES DE HIPÓTESIS
Profesor: Dr. Francesc Andreu Rosselló Llompart
Comisionista: Vicenç López Capó / Mireia López Castillo
Revisor: Mónica Díaz / Alicia Jover Oliver
Fecha: 22/12/2020

13. INTERVALOS DE CONFIANZA .................................................................................................................2


13.1 Definiciones básicas ...................................................................................................... 2
13.2 Un ejemplo: IC-95% para la media de una variable aleatoria normal ................. 5
13.3 Intervalo de confianza para la media basado en la t de Student ........................... 8
13.4 Intervalos de confianza para proporciones .............................................................. 9
Método “exacto” de Clopper-Pearson............................................................................... 10
Método aproximado de Wilson ......................................................................................... 10
Fórmula de Laplace ............................................................................................................. 10
Cálculo del tamaño de la muestra para fijar el error .................................................... 12
“Poblaciones finitas” ........................................................................................................... 14
13.5 Un intervalo de confianza para la diferencia de proporciones .......................... 14
13.6 Intervalos de confianza para diferencias de medias ............................................ 15
14. CONTRASTES DE HIPÓTESIS ............................................................................................................... 16
14.1 Hipótesis nula y alternativa ...................................................................................... 16
14.2 Un ejemplo ................................................................................................................... 18
14.2.1 Ejemplo 1 ................................................................................................................... 18
14.2.2 Ejemplo 2 ................................................................................................................... 19
14.3 El p-valor ................................................................................................................. 19
14.4 Tipos de errores ..................................................................................................... 20
14.5 Recapitulación ........................................................................................................ 21

1
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

13. INTERVALOS DE CONFIANZA


Los estimadores explicados en la lección anterior, nos permiten estimar el valor de una
característica de una población, pero no nos indican el error que cometemos con esta
estimación. En la práctica, se suele usar un intervalo que indique la precisión de la estimación
puntual llevada a cabo aplicando un estimador a una muestra, para complementar dicha
estimación.

Esta precisión depende de:

 La variabilidad del estimador. Cuánta menos variabilidad tenga, más precisa será la
estimación.

*Normalmente, la variabilidad del estimador crece con la desviación típica de la


variable poblacional y decrece con el tamaño de las muestras.

 Del nivel de confianza, o de seguridad, deseado para la estimación. Es decir, cómo


de seguros queremos estar de que la estimación es correcta.

13.1 Definiciones básicas


Un intervalo de confianza del Q% (para abreviar, un IC-Q%) de un parámetro poblacional
es un intervalo obtenido aplicando a una muestra aleatoria simple de tamaño n una fórmula

El intervalo obtenido contiene el valor del parámetro poblacional el Q% de las veces que
aplicamos la fórmula a muestras aleatorias simples de tamaño n tomadas al azar.

que satisface la siguiente propiedad:

A partir de aquí, podemos decir que tener una confianza del Q% significa que usamos una
fórmula que acierta el Q% de las veces que la aplicamos. Pero asumimos que en un (100-
Q) % de las veces da un intervalo que no contiene el valor del parámetro poblacional, y no
sabemos cuándo sí y cuándo no. De manera que solo podemos tener una cierta confianza,
fruto del optimismo, de que esta fórmula con nuestra muestra acierta. Es decir, podemos
estar bastante seguros de que acierte, pero no podemos estarlo completamente.

Ejemplo 1:

En un experimento medimos el porcentaje de aumento de alcohol en sangre a 40 personas


después de tomar 4 cañas de cerveza. Más adelante calcularemos con los datos obtenidos en
este experimento un IC-95% para el porcentaje de aumento medio de alcohol en sangre de
una persona después de beber 4 cañas de cerveza. Obtendremos el intervalo [40.53, 41.87].

Esto significará que tenemos un 95% de seguridad en que el aumento medio de alcohol en
sangre de una persona después de beber 4 cañas de cerveza está entre el 40.53% y el 41.87%,
porque este intervalo lo habremos calculado con una fórmula que el 95% de las veces que la
aplicamos a muestras aleatorias de 40 personas da un intervalo que contiene la media
poblacional que queremos estimar. Nosotros somos optimistas y “confiamos” estar dentro
de este 95% de aciertos.

Esto se suele escribir de la siguiente manera:

2
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

Hay un 95% de probabilidad de que el intervalo [40.53, 41.87] contenga el valor real
del aumento medio de alcohol en sangre de una persona después de beber 4 cañas de
cerveza.

Es importante entender qué nos dice esta frase:

 Por definición, un 95% de los intervalos de confianza del 95% para el aumento medio
de alcohol etc. contienen el valor real de este aumento medio.

 [40.53, 41.87] es un intervalo de confianza del 95% para el aumento medio de alcohol
etc., obtenido a partir de una muestra aleatoria.

 Entonces, [40.53, 41.87] tiene una probabilidad del 95% de contener el valor real del
aumento medio de alcohol etc. en el mismo sentido que si un 95% de las personas
tienen una determinada característica, y cojo una persona al azar, esta persona tiene
un 95% de probabilidad de tener esa característica.

También es importante no confundir las siguientes definiciones:

 Intervalo de referencia del Q% para una variable aleatoria: Intervalo que


contiene el valor de la variable aleatoria en un individuo con probabilidad Q%.

 Intervalo de confianza del Q% para un parámetro: Intervalo que contiene el valor


poblacional del parámetro de la variable aleatoria “con probabilidad” Q%, en el
sentido de que lo hemos calculado con una fórmula que da un intervalo que contiene
el parámetro el Q% de las veces que la aplicamos a una muestra aleatoria.

 Intervalo de referencia del Q% para un estimador: Intervalo que contiene el valor


del estimador sobre una muestra aleatoria con probabilidad Q%.

Ejemplo 2:

 Si decimos que un intervalo de referencia del 95% para la concentración de una


proteína en suero en individuos sanos (variable aleatoria) medida en g/dl es [11,16],
significa que un 95% de los individuos sanos tienen una concentración de esta
proteína en suero entre 11 y 16 g/dl. Es decir, si escogemos al azar un individuo sano,
la probabilidad de que su concentración de esta proteína en suero esté entre 11 y 16
g/dl es del 95%.

 Si decimos que un intervalo de confianza del 95% para la concentración media de


una proteína en suero en individuos sanos (parámetro) medida en g/dl es [11,16],
significa que este intervalo tiene un 95% de probabilidad de contener la
concentración media de esta proteína en suero en individuos sanos medida en g/dl.

 Si decimos que el 95% de las muestras de 100 concentraciones de una determinada


proteína en suero en individuos sanos tienen la media muestral entre 11 y 16 g/dl,
esto es un intervalo de referencia del 95% para la media muestral de muestras
de tamaño 100, no un intervalo de confianza para la concentración media poblacional
ni un intervalo de referencia para el valor de la concentración en un individuo.

3
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

Cuando calculemos un intervalo de confianza del Q% para un cierto parámetro θ de una


población nos dará [a,b]. A partir de aquí es relevante tener cuidado con el lenguaje que
usamos y saber redactar bien, es decir, de la siguiente manera:

 “[a,b] tiene una probabilidad del Q% de contener el valor real de θ”.

No podemos usar formas como “el valor real de θ tiene una probabilidad del Q% de
pertenecer a [a,b]”, ya que no significa lo mismo y se considera falsa.

¿Para qué sirve saber que un IC-Q% para un parámetro θ sea [a,b]?

Tiene dos funciones principales:


 Estimar θ con este margen de confianza: estamos bastante seguros de que el valor
poblacional de θ está entre a y b, debido a que sabemos que la fórmula usada acierta
a menudo.
 Descartar, con este margen de confianza, que θ valga cualquier valor concreto fuera
de [a,b]: Estamos bastante seguros de que el valor real de θ no está ni por debajo
de a ni por encima de b y por tanto de que es diferente de cualquier valor menor
que a o mayor que b.

Métodos básicos de cálculo de intervalos de confianza

Existen dos tipos de métodos básicos de cálculo de intervalos de confianza a partir de una
muestra aleatoria:

 Paramétricos: Usando alguna fórmula basada en la distribución muestral del


estimador. Se basan en teoremas y solo tiene sentido usarlos si la variable aleatoria y
la muestra aleatoria satisfacen (aproximadamente) las hipótesis de los teoremas.

 No paramétricos. Hacen referencia a los otros. El más popular es el Bootstrap, y se


usa de la siguiente manera:

- De nuestra muestra, tomamos al azar muchas (miles de) muestras aleatorias simples
(permitiendo repeticiones) del mismo tamaño que nuestra muestra.
- Calculamos el estimador para cada una de estas muestras.
- Usamos el vector de resultados para estimar un intervalo de confianza. Por ejemplo,
tomamos como IC-95% el intervalo entre los cuantiles 0.025 y 0.975 de este vector.

El bootstrap se puede usar siempre y funciona bien si la muestra es aleatoria, pero se


basa en un proceso aleatorio y por lo tanto cada ejecución sobre una misma muestra
puede dar un intervalo diferente. Así, es conveniente usarlo solo cuando no se está seguro
de poder aplicar el método paramétrico.

4
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

*El bootstrap es una herramienta muy poderosa para calcular intervalos de confianza y, en
general, para estimar la distribución muestral de un estadístico. Tanto, que en la práctica ya
empieza a sustituir los métodos paramétricos. Pero no hace milagros: si la muestra es
pequeña o muy poco representativa de la población, un intervalo de confianza calculado con
el bootstrap no sirve, al igual que si lo hubiésemos calculado con un método paramétrico.

13.2 Un ejemplo: IC-95% para la media de una variable aleatoria normal

Una de las fórmulas más populares para intervalos es la siguiente:

¿De dónde sale esta fórmula?


Supongamos que X es N(μ,σ) y que tenemos una muestra aleatoria simple de tamaño n,
media muestral ¯¯¯X y varianza muestral ˜S2X. En esta situación, sabemos que

tiene distribución t de Student con n−1 grados de libertad (tn−1).

Si podemos encontrar A, B∈R tales que P(A≤T≤B) =0.95, operando

5
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

llegamos a la siguiente igualdad:

que significa que para el 95% de las muestras aleatorias simples de tamaño n la μ cae dentro
del intervalo

Esto será un IC-95% para μ.

Ahora nos falta encontrar los A, B tales que P (A≤T≤B) =0.95.


Para hacerlo, usaremos cuantiles de la distribución de T. Por definición de cuantil,
P(T≤tn−1,0.975) =0.975
Por la simetría de la t de Student,

P(T≤−tn−1,0.975) =P(T≥tn−1,0.975) =0.025


Por tanto:

P(−tn−1,0.975≤T≤tn−1,0.975) =P(T≤tn−1,0.975) −P(T≤−tn−1,0.975) =0.975−0.025=0.95

Así pues, podemos tomar


A=−tn−1,0.975, B=tn−1,0.975
ya que el 95% de las muestras están entre estos dos valores.

De este modo, obtenemos el IC-95% para μ anunciado:

6
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

Ejemplo 3: Después de calcular 200 Intervalos de Confianza del 95% mediante el bloque de
código de R (explicado en los apuntes del profesor) obtenemos el gráfico siguiente:

Si contamos los intervalos rojos, veréis que hemos fallado 11 veces y por lo tanto hemos
acertado 189 veces, es decir, en un 94.5% de los intervalos. Es aproximadamente lo que
esperábamos (95%). Así, hemos comprobado que esta fórmula “acierta”, en el sentido de que
el intervalo que produce contiene la μ, alrededor del 95% de las veces.

Importante. En esta simulación, de los 200 IC-95% que se han calculado, 11 no han
contenido el valor real de μ. Así, podemos decir que un intervalo de confianza no
siempre acierta.

De media, un IC-Q% NO contiene el valor real del parámetro en un (100-Q) % de


las ocasiones.

Ejemplo 4: de media, un 5% de las veces que calculemos un IC-95%, el parámetro


poblacional no pertenecerá al intervalo obtenido.

Por lo tanto, si calculamos n IC-95% sobre muestras aleatorias simples


independientes, el número de veces que el intervalo resultante no contendrá el
parámetro poblacional seguirá una distribución binomial B(n,0.05).

7
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

Ejemplo 5: Volvemos al experimento 1 en el que medimos el porcentaje de aumento de


alcohol en sangre a 40 personas después de tomar 4 cañas de cerveza.
La media y la desviación típica muestral de estos porcentajes de incremento fueron

Para calcular un IC-95% para el porcentaje medio de aumento de alcohol en sangre


después de tomar 4 cañas de cerveza, μ para abreviar, supondremos que la variable
aleatoria de interés (de la que queremos estimar la media) X, que es “Tomamos una persona
y le medimos el porcentaje de aumento de alcohol en sangre después de tomar 4 cañas de
cerveza”, es normal y que la muestra que hemos tomado de esta variable es aleatoria
simple.
Así, como tn−1,0.975=qt (0.975,39) =2.0227, usamos la fórmula

un IC-95% para μ es:

Por lo tanto, estimamos con un 95% de confianza que el porcentaje medio de aumento de
alcohol en sangre después de tomar 4 cañas de cerveza está entre el 40.5% y el 41.9%, o que
es del 41.2% más menos 0.7 puntos porcentuales.

Para el cálculo anterior, hemos supuesto que la variable poblacional tomada sigue una
distribución normal, ¿qué pasaría si no lo fuera?

 En este caso, como el tamaño de la muestra n=40 es lo bastante grande como para
poder usar el Teorema Central del Límite (fórmula explicada en la próxima sección).
Nos dice que el intervalo obtenido sigue siendo (aproximadamente) un intervalo de
confianza del 95% para μ.
 Si n fuera pequeño y X muy diferente de una normal, no se puede usar esta fórmula y
habría que usar otros métodos (por ejemplo, el bootstrap).

13.3 Intervalo de confianza para la media basado en la t de Student


A partir de ahora, para evitar ambigüedades, en las fórmulas expresaremos el nivel de
confianza de los intervalos como una proporción en vez de como un porcentaje. Por lo
tanto, hablaremos de intervalos de confianza de nivel de confianza q (IC-q), con q entre
0 y 1, en vez de intervalos de confianza del Q% con Q=100q. Con estas notaciones, por
ejemplo, los intervalos de confianza del 95% serán intervalos de confianza de nivel de
confianza 0.95.

8
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

Así, en la fórmula usada en la sección anterior, cambiando 0.95 por q, llegamos al siguiente
teorema:

Esta fórmula se puede usar para el IC-q, para la media poblacional basada en la t de student,
si la variable poblacional es normal o si la muestra aleatoria simple es grande.

La estructura del IC-q para μ dado por esta fórmula es

estimador ± (1+q/2-cuantil de la distribución muestral) × (error típico de la muestra)

Esta estructura es muy típica (pero no universal) y cumple que:

 El intervalo de confianza está centrado en la estimación puntual.

 La “probabilidad de equivocarnos” se reparte por igual a los dos lados del intervalo ,
ya que en una fracción (1−q) /2 de las veces que apliquemos la fórmula, el valor real
del parámetro estará a la izquierda del extremo inferior y en otra
fracción (1−q)/2 de estas ocasiones estará a la derecha del extremo superior.

Para una misma muestra y una misma fórmula (paramétrica) para calcular el
intervalo de confianza, si el nivel de confianza crece, el intervalo se ensancha.
Ejemplo 6: en el Ejemplo 5, teníamos n=40, ¯¯¯x=41.2 y ˜s=2.1.
 El IC-95% tiene q=0.95, por lo tanto, tn−1, (1+q) /2=t39,0.975=2.02, y daba

 El IC-99% tiene q=0.99, por lo tanto, tn−1, (1+q) /2=t39,0.995=2.71, y da

Este es más ancho.

*Si cambiamos de muestra (o de fórmula, si hay más de una) para calcular el intervalo de
confianza, puede pasar cualquier cosa.

13.4 Intervalos de confianza para proporciones


Supongamos que tenemos una variable Bernoulli X con probabilidad poblacional de
éxito pX desconocida. Queremos calcular un intervalo de confianza para pX. Para hacerlo,
tomamos una muestra aleatoria simple de X de tamaño n, con número de éxitos S. Así,
tenemos una proporción muestral de éxitos

9
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

Se explican tres métodos para calcular este intervalo de confianza, que son el método de
Clopper-Pearson, el de Wilson y el de Laplace.

Método “exacto” de Clopper-Pearson


Basado en que el número de éxitos S en muestras aleatorias simples de tamaño n de X tiene
una distribución binomial B(n,pX). Razonando de manera similar a cómo obteníamos el
intervalo para μ basado en la t de Student se llega a una fórmula de un intervalo de confianza
para pX que nunca se aplica “a mano”, y que por tanto no vamos a ver.

Ventajas:
 Se puede usar siempre, independientemente del tamaño de la muestra.
 Es “exacto” porque se basa en la distribución exacta de S.

Inconvenientes:
 Como los números de éxitos en muestras de tamaño fijo avanzan a saltos (0, 1, 2, 3,…),
suele dar intervalos de confianza más anchos de lo necesario.
 Los intervalos que produce no son de la forma “probabilidad muestral ± algo”.
 Se necesita un ordenador para calcularlo, no basta una calculadora.

Método aproximado de Wilson


Tomamos una muestra aleatoria simple de X de tamaño n grande, pongamos n≥40, y una
proporción muestral de éxitos ˆpX. En estas condiciones, a partir del Teorema Central del
Límite y haciendo unos cálculos se llega a la siguiente fórmula, que NO hay que saber:

Pero tenemos que fijarnos en que:

 Este método no se puede usar con muestras de cualquier tamaño, han de ser lo
bastante grandes como para poder usar el Teorema Central del Límite.

 El centro del intervalo no es ˆpX.

 Se basa en la aproximación a la normal dada por el Teorema Central del Límite, y por
lo tanto el intervalo resultante es un intervalo de confianza “aproximado”, no exacto
como el de Clopper-Pearson. De todos modos, esto no es un gran problema.

Fórmula de Laplace
Tomamos una muestra aleatoria simple de X, de tamaño n todavía más grande, y que el valor
de ˆpX no sea muy próximo ni a 0 ni a 1. Para fijar unas condiciones que suelen ser
suficientes, supongamos que:

 n≥100.

10
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

 Tanto el número de éxitos, S, como el número de fracasos, n−S, en la muestra


son ≥10.

En este caso, en la fórmula del intervalo de Wilson los términos z2(1+q) /2/n son
despreciablemente pequeños comparados con los otros. Si los igualamos a 0, obtenemos la
fórmula siguiente para calcular un IC-q para pX:
Tenemos que saber la fórmula de
Laplace. No hay que saber las
fórmulas de los otros dos
métodos, aunque sí cuándo se
pueden usar y cuándo no.

Esta fórmula es la más popular, y se puede calcular “a mano”. Además, precede en más de
100 años a los otros dos métodos.

También tiene la estructura familiar “estimador ± cuantil×error típico”.

Hay que usarla siempre que se pueda, ya que da un intervalo centrado en la proporción
muestral.

Ejemplo 7 (IC para proporciones): En una muestra de 20 pacientes operados de cáncer de


próstata con una nueva técnica, ninguno desarrolló complicaciones importantes en las 24
horas siguientes a la operación. ¿Cuál sería un IC-95% para la proporción de pacientes
operados con esta técnica nueva que desarrollan complicaciones importantes en las 24 horas
siguientes a la operación?

Para calcularlo solo podemos usar el método de Clopper-Pearson, y este es uno de los pocos
casos en que este intervalo tiene una expresión analítica sencilla. Si en una muestra aleatoria
simple de tamaño n de una variable Be(pX) obtenemos 0 éxitos, el IC-q de Clopper-Pearson
para pX es

que, si q=0.95, queda


[0,1−0.0251/n]

En nuestro caso, n=20, da el intervalo [0,0.1684]. Por lo tanto, estimamos con un 95% de
confianza que menos del 16.84% de los pacientes operados con esta técnica nueva
desarrollan complicaciones importantes en las 24 horas siguientes a la operación.

Regla del 3: cuando en una muestra aleatoria simple de tamaño n de una variable aleatoria
de Bernoulli de parámetro pX no encontramos ningún éxito, un IC-95% para pX va,
aproximadamente, de 0 a 3/n.

11
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

Se suele usar cuando se tiene que calcular “a mano” un intervalo de confianza del 95% para
una probabilidad pX a partir de una muestra aleatoria simple donde no ha habido ningún
éxito.

Usando esta regla, en el ejemplo 7 con n=20 obtendríamos el intervalo [0,3/20]= [0,0.15],
no muy lejos del [0,0.1684] que hemos obtenido.

Este gráfico muestra como la regla del 3 aproxima el intervalo de Clopper-Pearson,


mostrando los valores 3/n y el extremo superior del IC-95% de Clopper-Pearson a partir de
una muestra de tamaño n con 0 éxitos:

Cálculo del tamaño de la muestra para fijar el error


Llamaremos margen de error (o error, precisión…) del intervalo de confianza de Laplace a
la mitad de su amplitud, es decir, a lo que sumamos y restamos a la proporción muestral para
obtenerlo:

El intervalo de confianza de Laplace es ^pX±M y por lo tanto, si contiene el valor real de pX, el
error |ˆpX−pX| que cometemos cuando decimos que el valor de pX es ^pX es como máximo
este M.
- Típica pregunta al diseñar un estudio: ¿de qué tamaño he de tomar la muestra para
garantizar que el margen de error en la estimación sea como máximo un valor
dado Mmax? En el caso del intervalo de Laplace para una proporción, podemos dar un
tamaño n que garantice un error máximo dado Mmax valga lo que valga ˆpX∈[0,1].

Función y=p(1−p), con p∈[0,1], es una parábola cóncava con vértice en su punto p=0.5.

12
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

Por lo tanto, y=p(1−p) toma su valor máximo en p=0.5.


Así, pues ˆpX(1−ˆpX)≤0.5(1−0.5)=0.52 y por lo tanto

Concluimos que si tomamos n tal que cumpla ese cáclculo, entonces seguro que M≤Mmax,
valga lo que valga ˆpX.

Por consiguiente, lo que haremos será calcular la n para obtener un margen de error como
máximo Mmax en el caso más desfavorable (o en el peor de los casos): cuando el intervalo
da lo más ancho posible, es decir, suponiendo que ˆpX=0.5.

Teorema

Si se cumple esto, el margen de error del intervalo de Laplace calculado con una muestra de
tamaño n será como máximo Mmax.

13
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

“Poblaciones finitas”
Tomamos una muestra aleatoria sin reposición y la población no es mucho más grande que la
muestra.
 Si X una variable aleatoria de Bernoulli Be(pX) definida sobre una población de
tamaño N y tomamos una muestra aleatoria sin reposición de X, con n≥100 y números
de éxitos y fracasos ≥10, un intervalo de confianza de nivel de confianza q para pX es,
aproximadamente,

 En las condiciones del punto anterior, para obtener un intervalo de confianza de nivel
de confianza q para pX con un margen de error Mmax en el caso más desfavorable
(ˆpX=0.5) habrá que tomar una muestra de tamaño

13.5 Un intervalo de confianza para la diferencia de proporciones


Sean X1 y X2 dos variables Bernoulli de probabilidades poblacionales de éxito p1 y p2,
respectivamente. Supongamos que queremos calcular un IC-q para la diferencia de estas
probabilidades, p1−p2. Para ello, tomamos dos muestras independientes, una de cada
variable:

 Una muestra aleatoria simple de tamaño n1 de X1, de proporción muestral ˆp1.


 Una muestra aleatoria simple de tamaño n2 de X2, de proporción muestral ˆp2.

Si las dos muestras son grandes, pongamos cada una de 50 o más sujetos, y las proporciones
muestrales no son muy cercanas a 0 o a 1 (para fijar ideas, que en cada muestra haya como
mínimo 5 éxitos y 5 fracasos), un IC-q para la diferencia p1−p2 es, aproximadamente,

*Tened en cuenta que n1ˆp1+n2ˆp2 es el número total de éxitos y n1(1−ˆp1)+n2(1−ˆp2) el


número total de fracasos en las dos muestras.

14
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

13.6 Intervalos de confianza para diferencias de medias


Sean X1 y X2 dos variables de medias μ1 y μ2, respectivamente. Supongamos que queremos
calcular un IC-q para la diferencia de medias μ1−μ2. Para ello, tomamos:

 Una muestra aleatoria simple de tamaño n1 de X1, de media muestral ¯¯¯X1.


 Una muestra aleatoria simple de tamaño n2 de X2, de media muestral ¯¯¯X2.

Si X1 y X2 son aproximadamente normales o si las muestras usadas son grandes (de nuevo,
digamos, ambas de tamaño como mínimo 40), entonces podemos usar un método
paramétrico basado en una distribución t de Student, que da un intervalo centrado en la
diferencia de medias muestrales, de la forma

Pero el número de grados de libertad ν a usar en el cuantil y el error típico van a depender de
dos factores.
Por un lado, de que las muestras sean independientes (hemos medido X1 y X2 sobre dos
muestras obtenidas de manera independiente la una de la otra) o emparejadas (hemos
medido X1 y X2 sobre los individuos de una misma muestra o hay un emparejamiento natural
entre los sujetos de las dos muestras; en particular, si las muestras son emparejadas ha de
pasar que n1=n2).
Y si las muestras son independientes, la fórmula a usar depende de si las varianzas
de X1 y X2 son iguales o diferentes.

*Solo recordad que la fórmula concreta a usar depende de estas condiciones

15
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

14. CONTRASTES DE HIPÓTESIS


El método estadístico que se usa para aceptar o rechazar una hipótesis a partir de los datos
de una muestra recibe el nombre de contraste de hipótesis.

14.1 Hipótesis nula y alternativa


En un contraste de hipótesis, se comparan siempre dos hipótesis alternativas: la hipótesis
nula H0 y la hipótesis alternativa H1. Se suele plantear formalmente

 La hipótesis nula H0 es “no hay diferencia”, “no pasa nada”, “no hay nada extraño” o el
equivalente en el contexto del contraste:
o La moneda es equilibrada (50% de probabilidad de cara).

o Los tratamientos A y B son igual de efectivos en la curación de la enfermedad X.

 La hipótesis alternativa H1 plantea la diferencia de la que buscamos evidencia:


o La moneda está trucada a favor de cara (más del 50% de probabilidad de cara).

o A es más efectivo que B en la curación de la enfermedad X.

 Por defecto, estamos dispuestos a aceptar H0: que no hay diferencia, que no pasa nada.
o Por defecto, estamos dispuestos a aceptar que la moneda es equilibrada (la mayoría
lo son, ¿no?).

o Por defecto, estamos dispuestos a aceptar que los dos tratamientos son igual de
efectivos (en general, si tomáis dos tratamientos cualesquiera, al azar, y los aplicáis
a enfermos de X, los dos van a ser igual de (in)efectivos).

 Si obtenemos evidencia suficiente de que H0 es falsa, rechazaremos H0 en favor de H1 y


concluiremos que H1 es verdadera.
¿Qué quiere decir “obtener evidencia suficiente de que H0 es falsa”? Pues que las pruebas
obtenidas hacen que H0 sea inverosímil (difícil de creer) por comparación con H1:
o Tendremos evidencia de que la moneda está trucada a favor de cara si en nuestra
serie de lanzamientos la proporción de caras es tan y tan grande que hace muy
difícil creer que la moneda no esté trucada a favor de cara.

o Tendremos evidencia de que A es más efectivo que B en la curación de X si en


nuestro ensayo la tasa de curación de la enfermedad X con el tratamiento A es tan y
tan superior a la de B que hace muy difícil creer que los dos tratamientos sean igual
de efectivos.

 Si no obtenemos evidencia suficiente de que H0 es falsa, es decir, si nuestros datos son


razonablemente compatibles con H0, no podremos rechazarla. Entonces, aceptaremos la
hipótesis nula.

16
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

o Aceptaremos que la moneda no está trucada a favor de cara si en nuestra serie de


lanzamientos la proporción de caras no es lo bastante grande como para hacer muy
difícil creer que sea equilibrada

o Aceptaremos que A es igual de efectivo que B en la curación de X si en nuestro


ensayo la tasa de curación de la enfermedad X con el tratamiento A no es lo
bastante superior a la de B como para hacer muy difícil creer que los dos
tratamientos sean igual de efectivos.

17
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

14.2 Un ejemplo
Tenemos una moneda, y creemos que está trucada en favor de cara. Queremos contrastarlo.

Aquí la variable aleatoria X que nos interesa es “lanzamos la moneda y miramos si sale cara”,
que es de Bernoulli con probabilidad de éxito (es decir, probabilidad de sacar cara con
nuestra moneda) pCara.

La hipótesis nula será que la moneda no está trucada (no le pasa nada a nuestra moneda), y la
alternativa (de la que busco evidencia), que la moneda está trucada en favor de cara. En
términos de pCara, el contraste es:

14.2.1 Ejemplo 1
Supongamos que lanzamos la moneda 3 veces y obtenemos 3 caras. ¿Es evidencia suficiente
de que está trucada?

Llamemos S3 a la variable aleatoria “Número de caras en 3 lanzamientos de esta moneda.” Si


la moneda no está trucada, S3es binomial B(3,0.5), y por lo tanto:

El resultado obtenido no es muy improbable con una moneda equilibrada: pasa, de media,
en 1 de cada 8 secuencias de 3 lanzamientos. Por lo tanto, no vamos a considerarlo
evidencia suficiente de que la moneda esté trucada. Aceptamos que la moneda es
equilibrada.

18
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

14.2.2 Ejemplo 2
Supongamos que ahora lanzamos la moneda 10 veces y obtenemos 10 caras. ¿Es evidencia
suficiente de que está trucada?

Llamemos S10 a la variable aleatoria “Número de caras en 10 lanzamientos.” Si la moneda no


está trucada, S10 es B(10,0.5) y por lo tanto

El resultado obtenido es bastante improbable si la moneda no está trucada: si la moneda


fuera equilibrada, de media solo en 1 de cada 1000 secuencias de 10 lanzamientos
obtendríamos 10 caras. Es decir, el resultado de nuestro experimento sería muy raro si la
moneda fuera equilibrada, por lo tanto es inverosímil que sea equilibrada. Lo
consideramos evidencia de que está trucada.

14.3 El p-valor
El p-valor es la probabilidad de que si la hipótesis nula es verdadera, el estadístico de
contraste tome en una muestra aleatoria simple del mismo tamaño que la nuestra, un valor
tan o más extremo, en el sentido de la hipótesis alternativa, que el obtenido con nuestra
muestra.

El p-valor es la probabilidad de nuestro resultado (o uno más extremo) condicionada al hecho


de que H0 sea verdadera. Por lo tanto, el p-valor es una evidencia indirecta inversa de H1:
Cuanto más pequeño sea el p-valor, más raro sería lo que hemos obtenido si H0 fuera
verdadera y H1 falsa, y por tanto más evidencia tenemos de que H0 no puede ser verdadera y
que la verdadera es H1.

Por ejemplo, si el p-valor de un contraste vale 0.03:

 Significa que, si H0 es verdadera, la probabilidad de que el estadístico de contraste


tome sobre una muestra un valor tan extremo o más, en el sentido de H1, que el que
hemos obtenido es 0.03.
o ¿Lo encontráis pequeño? Lo tomáis como evidencia de que H0 es falsa
y H1 verdadera.
o ¿No lo encontráis pequeño? No tenéis evidencia para rechazar que H0 es
verdadera.

 No significa que:

19
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

o La probabilidad de que H0 sea verdadera es 0.03.


o H0 es verdadera un 3% de las veces.

14.4 Tipos de errores

 Si H0 es la hipótesis verdadera en la realidad y nosotros decidimos que H1 es verdadera:


o La conclusión del contraste es errónea. Lo llamaremos un error de tipo
I, error α o falso positivo.
o α la probabilidad de cometer un error de tipo I, es decir, de rechazar H0 si es
verdadera, y la llamaremos el nivel de
significación:α=P(Rechazar H0|H0 verdadera).

 Si H1 es la hipótesis verdadera en la realidad y nosotros aceptamos H0:


o La conclusión del contraste es errónea. Lo llamaremos error de tipo
II, error β o falso negativo.
o Denotaremos por β la probabilidad de cometer un error de tipo II, es decir, de
aceptar H0 si H1es verdadera:β=P(Aceptar H0|H1 verdadera).

 Si H1 es la hipótesis verdadera en la realidad y nosotros decidimos rechazar H0 en


favor de H1:
o La conclusión del contraste es correcta. Lo llamaremos un verdadero
positivo.

o La probabilidad de acertar con un verdadero positivo es 1−β y la llamaremos


la potencia: 1−β=P(Rechazar H0|H1 verdadera).

 Si H0 es la hipótesis verdadera en la realidad y nosotros la aceptamos:

20
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

o La conclusión del contraste es correcta. Lo llamaremos un verdadero


negativo.

o La probabilidad de acertar con un verdadero negativo es 1−α y la llamaremos


el nivel de confianza:1−α=P(Aceptar H0|H0 verdadera).

 El nivel de significación de un contraste es la probabilidad de que, si la hipótesis nula


es verdadera, nosotros nos equivoquemos y la rechacemos en favor de la
alternativa:α=P(Rechazar H0|H0 verdadera).

 La potencia de un contraste es la probabilidad de que, si la hipótesis alternativa es


verdadera, nosotros lo detectemos y rechacemos la hipótesis nula en favor de la
alternativa:1−β=P(Rechazar H0|H1 verdadera).

14.5 Recapitulación
 Nivel de significación, α: probabilidad de rechazar H0 si esta es verdadera (probabilidad
de error de tipo I, de falso positivo).

 Nivel de confianza, 1−α: probabilidad de aceptar H0 si esta es verdadera (probabilidad de


verdadero negativo).

 Potencia, 1−β: probabilidad de rechazar H0 si H1 es verdadera (probabilidad de


verdadero positivo).

 Estadístico de contraste: lo que calculamos sobre una muestra aleatoria simple y nos
permite definir una regla de rechazo de H0.

 Región crítica o de rechazo: el rango de valores del estadístico de contraste para los que
rechazamos H0 con un nivel de significación α dado.

 Región de aceptación: el complementario de la región de rechazo, es decir, el rango de


valores del estadístico de contraste para los que aceptamos H0 con un nivel de
significación α dado.

 p-valor: la probabilidad de que, si H0 es verdadera, el estadístico de contraste tome sobre


una muestra aleatoria simple del mismo tamaño que la nuestra un valor tan o más
extremo (en el sentido de H1) que el obtenido sobre nuestra muestra.

21
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

El intervalo de confianza de nivel de confianza 1−α de un contraste es un intervalo que tiene


una probabilidad 1−α de contener el parámetro poblacional que contrastamos, en el sentido
de los intervalos de confianza del tema anterior: se calcula con una fórmula que en
un (1−α)⋅100 de las veces que la aplicamos a una muestra aleatoria simple, produce un
intervalo que contiene el parámetro poblacional.
Este intervalo de confianza se obtiene imponiendo que el estadístico de contraste pertenezca
a la región de aceptación para el nivel de significación α y despejando el parámetro
poblacional.
 Cuando H1 es bilateral, coincide con el intervalo de confianza dado en el tema anterior.
 Cuando H1 es unilateral, da un intervalo infinito en el lado definido por la hipótesis
alternativa.
Por ejemplo, consideremos el caso de un test t para efectuar un contraste

Aceptamos H0 con nivel de significación α cuando

Despejando μ0, obtenemos

Por lo tanto, el intervalo de confianza de nivel de confianza 1−α para este contraste es

Si la μ0 que contrastamos pertenece a este intervalo, no podemos concluir que


la μ poblacional sea más mayor que μ0, y por tanto no podemos rechazar que μ=μ0. Los
valores de μ0 en este intervalo son tan grandes, que con nuestra muestra no hemos obtenido
evidencia de que la μ real sea mayor que ellos.

22
Grado de Medicina (UIB) – Comisión de Apuntes Asignatura: BIOESTADÍSTICA

Si no establecemos un nivel de significación α, lo habitual es:


 Aceptar H0 si el p-valor es mayor que 0.1: se dice que el p-valor no es
estadísticamente significativo
 Rechazar H0 si el p-valor es menor que 0.05: se dice que el p-valor es
estadísticamente significativo
 Si el p-valor está entre 0.05 y 0.1 y no se ha fijado nivel de significación, lo mejor que
podéis hacer es no concluir nada y decir que es necesario repetir el estudio con una
muestra mayor.

Cuando el p-valor es menor que 0.05, se suelen distinguir tres franjas:


 Significativo si está entre 0.01 y 0.05
 Fuertemente significativo si está entre 0.001 y 0.01
 Muy significativo si es menor que 0.001

*La potencia 1−β es la probabilidad de rechazar H0 cuando H1 es verdadera.

23

También podría gustarte