Clase 12

Intervalo para la diferencia de medias de dos poblaciones
Intervalos de confianza para variables dicotómicas
Clases No 12 de Bioestadística:
Unidad: Inferencia estadística
Profesor Patricio Cumsille Atala
Departamento de Ciencias Básicas

Universidad del Bío-Bío, Chillán
Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para la diferencia de medias de dos poblaciones Intervalo para la diferencia de medias homocedásticas
Intervalos de confianza para variables dicotómicas Intervalo para la diferencia de medias (caso general)
Introducción
Supongamos que tenemos dos poblaciones, y que estamos

estudiando dos v.a. X1 y X2 ambas distribuidas según leyes
gaussianas:
X1 ; N(µ1 , σ12 ) X2 ; N(µ2 , σ22 )
En cada una de estas poblaciones se extrae una m.a.s. (no
necesariamente del mismo tamaño):
~ 1 ≡ (X11 , X12 , . . . , X1n ),
X ~ 2 ≡ (X21 , X22 , . . . , X2n )
X
1 2
A partir de estas muestras, podemos plantearnos que diferencia

existe entre las medias de ambas poblaciones, o por ejemplo,
estudiar la relación existente entre sus respectivas dispersiones.

Intervalo para la diferencia de medias homocedásticas (1/4)
Supongamos que las dos poblaciones tengan varianzas idénticas

(homocedasticidad), σ 2 . Es decir, σ12 = σ22 = σ 2 .
Un I.C. para la diferencia de las medias, se obtiene bajo las
siguientes consideraciones:
(n −1)Ŝ 2

χ2n1 −1 := 1 σ2 1 ; χ2n1 −1  
=⇒
(n −1)Ŝ 2 
χ2n2 −1 := 2 σ2 2 ; χ2n2 −1

χ2n1 +n2 −2 := χ2n1 −1 + χ2n2 −1 ; χ2n1 +n2 −2

De manera similar al caso de la media de una población, tenemos

que:
(X̄1 − X̄2 ) − (µ1 − µ2 ) (X̄1 − X̄2 ) − (µ1 − µ2 )

Z := q 2 2
= q ; N(0, 1)
σ1 σ2 1 1
n1 + n2
σ n1 + n2
Por lo tanto, similar al caso de la media de una población, tenemos

que:
Z (X̄1 − X̄2 ) − (µ1 − µ2 )

Tn1 +n2 −2 = q = q ; tn1 +n2 −2
1 2
n1 +n2 −2 χn1 +n2 −2 Ŝ n11 + n12

De manera similar al caso de la media de una población, tenemos

que:
(X̄1 − X̄2 ) − (µ1 − µ2 ) (X̄1 − X̄2 ) − (µ1 − µ2 )

Z := q 2 2
= q ; N(0, 1)
σ1 σ2 1 1
n1 + n2
σ n1 + n2
Por lo tanto, similar al caso de la media de una población, tenemos

que:
Z (X̄1 − X̄2 ) − (µ1 − µ2 )

Tn1 +n2 −2 = q = q ; tn1 +n2 −2
1 2
n1 +n2 −2 χn1 +n2 −2 Ŝ n11 + n12

Ŝ 2 denota la cuasivarianza de la muestra conjunta, y se define

como:
n1
X n2
X
2
(X1i − X̄1 ) + (X2i − X̄2 )2
(n1 − 1)Ŝ12
+ (n2 − 1)Ŝ22 i=1 i=1
Ŝ 2 = =
n1 + n2 − 2 n1 + n2 − 2
Para determinar el I.C. para la diferencia de las medias al nivel
(1 − α), calculamos el valor tn1 +n2 −2;1−α/2 que deja por encima de
si α/2 de la masa de probabilidad de Tn1 +n2 −2 :
α
P[Tn1 +n2 −2 > tn1 +n2 −2;1−α/2 ] =
2
⇐⇒ P[|Tn1 +n2 −2 | ≤ tn1 +n2 −2;1−α/2 ] = 1 − α


Repitiendo un argumento que hemos realizado antes, tenemos una
probabilidad de (1 − α) de que al extraer una m.a.s. ocurra:
|Tn1 +n2 −2 | ≤ tn1 +n2 −2;1−α/2

(X̄1 − X̄2 ) − (µ1 − µ2 )
⇐⇒ q ≤ tn1 +n2 −2;1−α/2
Ŝ n11 + n12
Luego el I.C. al nivel (1 − α) para la diferencia de las esperanzas de

dos poblaciones con la misma varianza (aunque esta sea
desconocida) es:
r
1 1
µ1 − µ2 = (X̄1 − X̄2 ) ± tn1 +n2 −2;1−α/2 · Ŝ +
n1 n2

Ejemplo (1/3)
Queremos estudiar la influencia que puede tener el tabaco con el

peso de los niños al nacer. Para ello se consideran dos grupos de
mujeres embarazadas (unas que fuman y otras que no) y se
obtienen los siguientes datos sobre el peso X , de sus hijos:

Madres fumadoras : n1 = 35 mujeres, X̄1 = 3, 6 kg., Ŝ1 = 0, 5kg.
Madres no fumadoras : n2 = 27 mujeres, X̄2 = 3, 2 kg., Ŝ2 = 0, 8kg.
En ambos grupos los pesos de los recién nacidos provienen de

distribuciones normales de medias desconocidas, y con varianzas
que, si bien son desconocidas, podemos suponer iguales. Calcular en
cuanto influye el que la madre sea fumadora en el peso de su hijo.

Ejemplo (2/3)
Solución (1/2)
Sea X1 la v.a. que describe el peso de un niño que nace de madre

fumadura, y X2 el peso de un hijo de madre no fumadora.
Calculemos un I.C. al nivel 100 · (1 − α) = 100 · 0, 95 = 95%
(α = 0, 05) para la diferencia de los valores esperados, µ1 − µ2 , de
los pesos de estos niños.
Como n1 = 35 y n2 = 27 entonces, debemos encontrar en tabla de
t−student el cuantil tn1 +n2 −2;1−α/2 = t60;0,975 correspondiente a 60
g.l. Este vale t60;0,975 = 2, 000. Por otro lado,
(n1 − 1)Ŝ12 + (n2 − 1)Ŝ22 34 · 0, 52 + 26 · 0, 82

Ŝ 2 = = = 0, 419
n1 + n2 − 2 60
p
Luego Ŝ = Ŝ 2 = 0, 6473.

Ejemplo (3/3)
Solución (2/2)
Luego, el I.C. buscado es:

r
1 1
µ1 − µ2 = (X̄1 − X̄2 ) ± tn1 +n2 −2;1−α/2 · Ŝ +
n n2
r 1
1 1
= (3, 6 − 3, 2) ± 2, 000 · 0, 6473 +
35 27
= 0, 4 ± 2 · 0, 1658 = 0, 4 ± 0, 3316 = [0, 0684; 0, 7316]
Con esto se puede decir que, con un nivel de confianza de 95%, la

diferencia esperada de los pesos de los niños de madres fumadoras
con respecto a las no fumadoras es de 0, 0684 kg. (68, 4 grs.).

Intervalo para la diferencia de medias (caso general)
En el caso, general, debemos hacer un supuesto del tipo σ22 = cσ12 ,

con c > 0 una constante (varianzas proporcionales), con el fin de
calcular un I.C. para la diferencia de las medias.
Bajo este supuesto, el I.C. de nivel (1 − α) es:
µ1 − µ2 = (X̄1 − X̄2 ) ± tn1 +n2 −2;1−α/2 · A
donde A está dado por:

v !
u
c(n1 − 1)Ŝ12 + (n2 − 1)Ŝ22
u 1
c
A= t + ·
n1 n2 c(n1 + n2 − 2)

Intervalo para una proporción
Elección del tamaño muestral para una proporción
Intervalo para la diferencia de dos proporciones
Introducción
Cuando tenemos una variable dicotómica (o de Bernoulli) nos

interesa saber en qué proporción de casos, p, ocurre el éxito en la
realización de un experimento. También nos interesa comparar la
diferencia existente entre las proporciones en distintas poblaciones.
Por último, también es de interés determinar, para un nivel de
significación dado, el tamaño muestral necesario para calcular un
I.C. cuyo radio sea menor que cierta precisión.

Intervalo para una proporción (1/2)

Sean X1 , . . . , Xn ; Ber(p). Para estimar el parámetro p, conviene
sumar estas v.a., lo que nos proporciona una v.a. con distribución
binomial:
X := X1 + . . . + Xn ; B(n, p)
Entonces, el estimador de p es p̂ := Xn . Es decir, tomamos como
estimación de p la proporción de éxitos obtenidos en las n pruebas
(p̂).
≈
Como X ; B(n, p) =⇒ X ; N(np, npq) (si el tamaño de la
muestra n es grande, y si p no es muy cercano a cero o uno),
tenemos que:
X ≈ pq p̂ − p
p̂ = ; N p, =⇒ q ≈ Z ; N(0, 1)
n n pq
n


Sean X1 , . . . , Xn ; Ber(p). Para estimar el parámetro p, conviene
sumar estas v.a., lo que nos proporciona una v.a. con distribución
binomial:
X := X1 + . . . + Xn ; B(n, p)
Entonces, el estimador de p es p̂ := Xn . Es decir, tomamos como
estimación de p la proporción de éxitos obtenidos en las n pruebas
(p̂).
≈
Como X ; B(n, p) =⇒ X ; N(np, npq) (si el tamaño de la
muestra n es grande, y si p no es muy cercano a cero o uno),
tenemos que:
X ≈ pq p̂ − p
p̂ = ; N p, =⇒ q ≈ Z ; N(0, 1)
n n pq
n

La expresión anterior presenta dificultades para el cálculo, por lo

cual es más cómodo sustituirla por la siguiente aproximación:
p̂ − p
q ≈ Z ; N(0, 1)
p̂q̂
n
Para encontrar el I.C. al nivel de significación α para p se considera

el intervalo que hace que la distribución de Z ; N(0, 1) deje la
probabilidad α fuera del mismo. Es decir, se considera el intervalo
cuyos extremos son los cuantiles α/2 y 1 − α/2. El I.C. es:
r
p̂q̂
p = p̂ ± z1−α/2
n

Ejemplo
Ejemplo: Se quiere estimar el resultado de un referéndum

mediante un sondeo. Para ello se realiza un muestreo aleatorio
simple con n = 100 personas y se obtiene que 35% votarán a favor
y 65% votarán en contra (suponemos que no hay indecisos para
simplificar el problema a una variable dicotómica). Con un nivel de
significación del 5%, calcule un intervalo de confianza para el
verdadero resultado de las elecciones.

Solución
Solución: Dada una persona cualquiera (i) de la población, el
resultado de su voto es una variable dicotómica:
Xi ; Ber(p)
El parámetro a estimar es p: la proporción de personas de la

población que votarán a favor del referéndum. Para estimar p
tenemos una m.a.s. de tamaño n = 100, de la cual se sabe que el
35% votarán a favor. Luego el estimador de p es p̂ = 0, 35 y por lo
tanto q̂ = 1 − p̂ = 0, 65. El intervalo de confianza al nivel 95% es:
r r
p̂q̂ 0, 35 · 0, 65
p = p̂ ±z1−α/2 = 0, 35±1, 96· = 0, 35±0, 0935
n 100
Por lo tanto, con una m.a.s. de tamaño n = 100 tenemos un error
aproximado de 9, 4 puntos porcentuales al nivel de confianza del
95%.
Solución
Solución: Dada una persona cualquiera (i) de la población, el
resultado de su voto es una variable dicotómica:
Xi ; Ber(p)
El parámetro a estimar es p: la proporción de personas de la

población que votarán a favor del referéndum. Para estimar p
tenemos una m.a.s. de tamaño n = 100, de la cual se sabe que el
35% votarán a favor. Luego el estimador de p es p̂ = 0, 35 y por lo
tanto q̂ = 1 − p̂ = 0, 65. El intervalo de confianza al nivel 95% es:
r r
p̂q̂ 0, 35 · 0, 65
p = p̂ ±z1−α/2 = 0, 35±1, 96· = 0, 35±0, 0935
n 100
Por lo tanto, con una m.a.s. de tamaño n = 100 tenemos un error
aproximado de 9, 4 puntos porcentuales al nivel de confianza del
95%.

Si en el ejemplo anterior, quisiéramos reducir el error en la
estimación de la proporción de personas que votará a favor del
referéndum, de 9, 4 puntos a 1 punto porcentual, por ejemplo, y
aumentando el nivel de confianza hasta el 97% (α = 0, 03), hemos
de tomar lógicamente una muestra de tamaño N, más grande. El
valor de N que satisface nuestros requerimientos es:
2
z1−α/2
N ≥ p̂q̂
error2
Si en principio, no disponemos de una estimación p̂ para p,
consideramos el peor caso posible, que es cuando p = q = 1/2. Así
2
1 z1−α/2
N≥ cuando no se tiene estimación de p
4 error2


Si en el ejemplo anterior, quisiéramos reducir el error en la
estimación de la proporción de personas que votará a favor del
referéndum, de 9, 4 puntos a 1 punto porcentual, por ejemplo, y
aumentando el nivel de confianza hasta el 97% (α = 0, 03), hemos
de tomar lógicamente una muestra de tamaño N, más grande. El
valor de N que satisface nuestros requerimientos es:
2
z1−α/2
N ≥ p̂q̂
error2
Si en principio, no disponemos de una estimación p̂ para p,
consideramos el peor caso posible, que es cuando p = q = 1/2. Así
2
1 z1−α/2
N≥ cuando no se tiene estimación de p
4 error2

Ejemplo
Se quiere estimar el resultado de un referéndum mediante un

sondeo, y sin tener una idea sobre el posible resultado del mismo,
se desea conocer el tamaño muestral que se ha de tomar para
obtener un intervalo al 97% de confianza, con un error del 1%.
Solución: Como no se tiene una idea previa del posible resultado
del referéndum, hay que tomar un tamaño muestral, N, que se
calcula mediante:
2 2
1 z1−α/2 1 z0,985 0, 25 · 2, 172
N≥ = · = = 11772, 25
4 error2 4 0, 012 0, 012
Así para tener un resultado tan fiable, el número de personas a

entrevistar debe ser muy elevado, lo que puede volver
excesivamente costoso el sondeo.

Ejemplo

calcula mediante:
2 2
1 z1−α/2 1 z0,985 0, 25 · 2, 172
N≥ = · = = 11772, 25
4 error2 4 0, 012 0, 012


Ejemplo

calcula mediante:
2 2
1 z1−α/2 1 z0,985 0, 25 · 2, 172
N≥ = · = = 11772, 25
4 error2 4 0, 012 0, 012


Intervalo para la diferencia de dos proporciones (1/4)

Vamos a considerar que tenemos dos poblaciones de modo que en
cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de
parámetros respectivos p1 y p2 . De cada población vamos a extraer
muestras de tamaño n1 y n2
~ 1 ≡ X11 , X12 , . . . , X1n
X ~ 2 ≡ X21 , X22 , . . . , X2n
X
1 2
Entonces
n1
X n2
X
X1 = X1i ; B(n1 , p1 ) X2 = X2i ; B(n2 , p2 )
i=1 i=1
Si las muestras son suficientemente grandes tenemos que una

aproximación para un I.C. al nivel (1 − α) para la diferencia de las
proporciones de dos poblaciones es:

~ 1 ≡ X11 , X12 , . . . , X1n
X ~ 2 ≡ X21 , X22 , . . . , X2n
X
1 2
Entonces
n1
X n2
X
X1 = X1i ; B(n1 , p1 ) X2 = X2i ; B(n2 , p2 )
i=1 i=1


~ 1 ≡ X11 , X12 , . . . , X1n
X ~ 2 ≡ X21 , X22 , . . . , X2n
X
1 2
Entonces
n1
X n2
X
X1 = X1i ; B(n1 , p1 ) X2 = X2i ; B(n2 , p2 )
i=1 i=1


Ejemplo
r
p̂1 q̂1 p̂2 q̂2
p1 − p2 = (p̂1 − p̂2 ) ± z1−α/2 · +
n1 n2
Ejemplo: Se cree que la osteoporosis está relacionada con el sexo.
Para ello se elige una muestra de 100 hombres de más de 50 años y
una muestra de 200 mujeres en las mismas condiciones. Se obtiene
que 10 hombres y 40 mujeres con algún grado de osteoporosis.
¿Qué podemos concluir con una confianza del 95%?


Ejemplo
r
p̂1 q̂1 p̂2 q̂2
p1 − p2 = (p̂1 − p̂2 ) ± z1−α/2 · +
n1 n2
Ejemplo: Se cree que la osteoporosis está relacionada con el sexo.
Para ello se elige una muestra de 100 hombres de más de 50 años y
una muestra de 200 mujeres en las mismas condiciones. Se obtiene
que 10 hombres y 40 mujeres con algún grado de osteoporosis.
¿Qué podemos concluir con una confianza del 95%?


Solución (1/2)
Solución: Llamamos p1 a la incidencia (proporción) de la

osteoporosis en las mujeres de más de 50 años y p2 a la de los
hombres. Calculemos un intervalo de confianza para la diferencia
(p1 − p2 ). Si 0 no forma parte de dicho intervalo con una confianza
del 95% podemos decir que p1 es diferente a p2 (con tal grado de
confianza, por supuesto).
La estimación puntual insesgada que podemos hacer de ambos
parámetros a partir de los datos muestrales son:
40 10
p̂1 = = 0, 2 p̂2 = = 0, 1
200 100
El I.C. al 95% es:
r
0, 2 · 0, 8 0, 1 · 0, 9
(p1 −p2 ) = (0, 2−0, 1)±1, 96· + = 0, 1±0, 08
200 100

Solución (1/2)

40 10
p̂1 = = 0, 2 p̂2 = = 0, 1
200 100
El I.C. al 95% es:
r
0, 2 · 0, 8 0, 1 · 0, 9
(p1 −p2 ) = (0, 2−0, 1)±1, 96· + = 0, 1±0, 08
200 100

Solución (1/2)

40 10
p̂1 = = 0, 2 p̂2 = = 0, 1
200 100
El I.C. al 95% es:
r
0, 2 · 0, 8 0, 1 · 0, 9
(p1 −p2 ) = (0, 2−0, 1)±1, 96· + = 0, 1±0, 08
200 100

Solución (2/2)
Es decir, tenemos una confianza del 95% en la afirmación de que la

diferencia entre la incidencia de osteoporosis en mujeres y hombres
está entre 0, 02 (2%) y 0, 18 (18%).
Obsérvese que, como 0% no es un valor de dicho intervalo, puede
concluirse con una confianza del 95% que hay diferente incidencia
de osteoporosis en hombres que en mujeres para las personas de
más de 50 años. Esta conclusión es algo más pobre de lo que
hemos obtenido con el intervalo de confianza, pero visto de esta
manera, este ejemplo puede considerarse como una introducción a
los contrastes de hipótesis.


Solución (2/2)
Es decir, tenemos una confianza del 95% en la afirmación de que la

diferencia entre la incidencia de osteoporosis en mujeres y hombres
está entre 0, 02 (2%) y 0, 18 (18%).
Obsérvese que, como 0% no es un valor de dicho intervalo, puede
concluirse con una confianza del 95% que hay diferente incidencia
de osteoporosis en hombres que en mujeres para las personas de
más de 50 años. Esta conclusión es algo más pobre de lo que
hemos obtenido con el intervalo de confianza, pero visto de esta
manera, este ejemplo puede considerarse como una introducción a
los contrastes de hipótesis.

Clase 12

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 12

Cargado por

Copyright:

Formatos disponibles

Intervalo para la diferencia de medias de dos poblaciones

Intervalos de confianza para variables dicotómicas

Profesor Patricio Cumsille Atala

Departamento de Ciencias Básicas

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Supongamos que tenemos dos poblaciones, y que estamos

A partir de estas muestras, podemos plantearnos que diferencia

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para la diferencia de medias homocedásticas (1/4)

Supongamos que las dos poblaciones tengan varianzas idénticas

χ2n1 +n2 −2 := χ2n1 −1 + χ2n2 −1 ; χ2n1 +n2 −2

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para la diferencia de medias homocedásticas (2/4)

De manera similar al caso de la media de una población, tenemos

(X̄1 − X̄2 ) − (µ1 − µ2 ) (X̄1 − X̄2 ) − (µ1 − µ2 )

Por lo tanto, similar al caso de la media de una población, tenemos

Z (X̄1 − X̄2 ) − (µ1 − µ2 )

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para la diferencia de medias homocedásticas (2/4)

De manera similar al caso de la media de una población, tenemos

(X̄1 − X̄2 ) − (µ1 − µ2 ) (X̄1 − X̄2 ) − (µ1 − µ2 )

Por lo tanto, similar al caso de la media de una población, tenemos

Z (X̄1 − X̄2 ) − (µ1 − µ2 )

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para la diferencia de medias homocedásticas (3/4)

Ŝ 2 denota la cuasivarianza de la muestra conjunta, y se define

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para la diferencia de medias homocedásticas (4/4)

|Tn1 +n2 −2 | ≤ tn1 +n2 −2;1−α/2

Luego el I.C. al nivel (1 − α) para la diferencia de las esperanzas de

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Queremos estudiar la influencia que puede tener el tabaco con el

En ambos grupos los pesos de los recién nacidos provienen de

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Sea X1 la v.a. que describe el peso de un niño que nace de madre

(n1 − 1)Ŝ12 + (n2 − 1)Ŝ22 34 · 0, 52 + 26 · 0, 82

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Luego, el I.C. buscado es:

Con esto se puede decir que, con un nivel de confianza de 95%, la

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para la diferencia de medias (caso general)

En el caso, general, debemos hacer un supuesto del tipo σ22 = cσ12 ,

µ1 − µ2 = (X̄1 − X̄2 ) ± tn1 +n2 −2;1−α/2 · A

donde A está dado por:

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Cuando tenemos una variable dicotómica (o de Bernoulli) nos

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para una proporción (1/2)

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para una proporción (1/2)

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Intervalo para una proporción (2/2)

La expresión anterior presenta dificultades para el cálculo, por lo

Para encontrar el I.C. al nivel de significación α para p se considera

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Ejemplo: Se quiere estimar el resultado de un referéndum

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

El parámetro a estimar es p: la proporción de personas de la

El parámetro a estimar es p: la proporción de personas de la

Elección del tamaño muestral para una proporción

Unidad Inferencia estadística Profesor Patricio Cumsille Atala

Elección del tamaño muestral para una proporción

Unidad Inferencia estadística Profesor Patricio Cumsille Atala