Está en la página 1de 52

Curso introductorio de bioestadística

La prueba de Z para estimar la diferencia de medias y de


proporciones. Intervalo de confianza para diferencia de
medias y diferencia de proporciones

Por: Gerardo Álvarez Hernández PhD


La desviación estándar

S  ( x  x) i
2

n 1
S = desviación estándar
xi = valor individual
x = media de todos los valores
n = tamaño de la muestra
Error estándar de la media

• El error estándar es un estimador de


cuánto variaría la media entre muchas
muestras sacadas de la misma población
• Es un estimador de la desviación s
estándar de la media muestral SEM 
• Pequeños valores del error estándar n
sugieren que la muestra es
probablemente un buen estimador de
la media poblacional
Prueba de hipótesis: la distribución normal

• Un supuesto clave para diversas variables (específicamente


sus valores) es que se encuentran normalmente distribuidas

• Los estadísticos mas comunes (z, t, F-test) descansan en


este supuesto
El valor de z

xi  x
• Un infinito número de distribuciones

z
normales es posible, una para cada
combinación de la media y la varianza, pero
todas relacionadas a una sola distribución s
• Al estandarizar un grupo de valores, cambia
la escala a unidades de la desviación • Donde:

estándar
• X i = cualquier valor individual en
• Permite comparaciones con valores que la muestra

originalmente pudieron estar en una escala • x = media muestral


• s = desviación estándar
diferente
Valor de Z

• Nos dice dónde se localiza un valor dado dentro de una distribución


• Señala cuántas unidades de desviación estándar, el valor “z” está por arriba o por
debajo de la media y en qué dirección ocurre este distanciamiento
• Propiedades
– La media de un grupo de valores “z” es cero
– La varianza (y por lo tanto la desviación estándar) de un grupo de valores “z”
es 1
• Recuerde que la distribución normal estándar tiene una media=0 y desviación
estándar=1, de modo que [N (0,1)]
Área bajo la curva normal

• Ejemplo: considere una variable “x” con una media de 500 y una DE = 15. ¿Qué tan
probable es una media > de 525?

• P (x) > 525

• Z = 525-500/15 = 1.67

– estadístico Z=1.67

– en una tabla de Z, 1.67 = 0.9525

– Luego, 1 - 0.9525 = 0.0475 es la probabilidad de que la media de esta


población sea > 525
Área bajo la curva normal
Diferencia entre las medias de dos muestras

• Cuando queremos comparar poblaciones


La diferencia entre las medias de dos
para obtener una conclusión acerca de la muestras X1 y X2:
diferencia existente entre las medias de
dos poblaciones
( x1  x 2 )  ( 1   2 )
• Para conocer tal diferencia es necesario
Z
s 21 s 2 2
conocer la naturaleza de la distribución 
muestral
n1 n2
Diferencia entre las medias de dos muestras

• Para decidir si las diferencias observadas entre las medias son suficientemente grandes para ser atribuidas al azar

1. Especifique una hipótesis nula. :


Ho : 1   2
Ha : 1   2
2. Especifique un nivel de significancia α, y defina si interesa una prueba unilateral (una cola) o bilateral (dos colas)

3. Calcule de la probabilidad de obtener un par de medias muestrales que difieran de las medias observadas, en el
caso de que Ho sea verdadera

4. Si esta probabilidad es suficientemente pequeña, rechazaremos la Ho y concluiremos que las dos medias de
población son diferentes
Distribución de la diferencia entre las medias de dos muestras

• Ejemplo

• Se ha establecido que para ciertas actividades de campo, la duración

promedio de una visita domiciliaria realizada por una enfermera es de

45 min., con una desviación estándar de 15 min. y que para un segundo

tipo de acciones, la visita dura 30 min., con una desviación estándar de

20 min.

• Si una enfermera visita al azar a 35 sujetos del primer tipo y 40 del

segundo grupo, ¿cuál es la probabilidad de que la duración media de la

visita difiera entre los grupos por 20 minutos o más?


Distribución de la diferencia entre las medias de dos muestras

• P (X1 – X2) > 20 μ1 = 45 s1 = 15 n1 = 35

μ2 = 30 s2 = 20 n2 = 40

20 – (45 – 30) 5
Z = = = 1.23
(15)2 (20)2 16.4286
35 + 40

• La probabilidad de Z = 1.23 en la tabla es (0.8907)

• Nosotros queremos:

P( x1  x 2 )  20 1  0.8907  0.1093
Distribución de la diferencia entre las medias de dos
muestras

Entrada de la tabla = 0.8907

Área solicitada = 0.1093

-α α
Z = 1.23

Región de rechazo

Dado que Zc (1.23) < Zt (1.645) no se rechaza la Ho y se puede concluir que


no hay diferencias significativas en las medias muestrales

¿Por qué Zt al 95% = (1.645)? 1 – 0.05 = 0.95 Este valor en la tabla Z corresponde a 1.645
Prueba de hipótesis para la media de una población

1. Contar con los datos

2. Supuestos

3. Formular hipótesis estadística

4. Seleccionar estadístico de prueba

5. Distribución del estadístico de prueba

6. Regla de decisión

7. Cálculo del estadístico de prueba


Prueba de hipótesis para la media de una población

Formular hipótesis estadística

Ho : x1  
Prueba de hipótesis de una cola
Ha : x1  

Ho : x1   Prueba de hipótesis de dos colas


Ha : x1  
Prueba de hipótesis para la media de una población

Seleccionar estadístico de prueba


• Puede ser z, t, χ2, Fisher, etc.
• Nos ayudará a establecer el valor crítico
• Se llama valor crítico porque es el valor límite a partir del cual
se puede rechazar la Ho
Prueba de hipótesis para la media de una población

• Ejemplo: (dos colas)


• Zt (Z de tabla) al 95% = 1.96 (¿por qué?)
• 1 – 0.95 = 1 – (.05/2) = 1 - .025 = 0.9750

.025 .025

Región de rechazo Región de rechazo

Se rechaza Ho si Zc (Z calculada) > 1.96 ó < -.196


Prueba de hipótesis para la media de una población

• Ejemplo: (una cola)


• Zt (Z de tabla) al 95% = 1.645
• 1 – 0.05 = .9500, en la tabla este valor se encuentra entre 1.64 y 1.65, por lo
tanto, es igual a 1.645

0.05

Región de rechazo

Se rechaza Ho si Zc (Z calculada) > 1.645


Prueba de hipótesis para la media de una población

• Ejemplo: (una cola)


• Si Zt (Z de tabla) fuera = 1.96, entonces el nivel de confianza sería de 0.975 (97.5%),
porque 1 – 0.025 = .975

0.025

Región de rechazo

Se rechaza Ho si Zc (Z calculada) > 1.96, con un nivel de confianza de 97.5%, a


una cola
Prueba de hipótesis para la media de una población

• Ejemplo
• X1 (glucosa en ayunas) = 150 mg en una muestra de 50 individuos adultos diabéticos, con una
desviación estándar de 20 mg
• La media poblacional de individuos no diabéticos se sabe que es de 90 mg
• ¿Hay una diferencia estadísticamente significativa en la media de glucosa en ambas poblaciones?
• Supuestos: se distribuye normalmente, la muestra es aleatoria
• Formulación de hipótesis estadística

Ho : x1  
Prueba de 2 colas

Ha : x1  
Prueba de hipótesis para la media de una población

• X1 = 150 mg n= 50 s = 20 mg
μ = 90 mg
x
• Selección del estadístico de
prueba: Z para diferencia de medias
Z
de una muestra, con un nivel de
s
confianza del 95% n
• Distribución del estadístico de
prueba: se rechaza Ho si Zc > 1.96 o
Zc < -1.96 (regla de decisión)
Prueba de hipótesis para la media de una población

• X1 = 150 mg n= 50 s = 20 mg. μ = 90 mg
• Cálculo del estadístico de prueba

x
Z
s/ n
150  90 60 60
Z    21.2
20 20 2.8288
50 7.07
Prueba de hipótesis para la media de una población

• X1 = 150 mg n= 50 s = 20 mg. μ = 90 mg

• Decisión estadística:

• Dado que Zc > Zt (Z de tabla ó Z crítica) [1.96], se rechaza la Ho y Ho : x  


se acepta que es muy probable que la Ha sea verdadera
Ha : x  
• Conclusión científica:

• El nivel promedio de glucosa en ayunas es significativamente


diferente en los diabéticos que en la población general

• Si decidiéramos hacerlo con una prueba de hipótesis de una cola:


Prueba de hipótesis para la media de una población

• El valor crítico de la prueba de Z para diferencia de medias de una


muestra de una cola con un nivel de confianza del 95% sería Zt =
1.645

• Luego entonces, Ho sería rechazada porque Zc > Zt, es decir, 21.2


> 1.645
Intervalo de confianza para la media

• Si el muestreo se realiza a partir de una población normal, la distribución de la media muestral


es normal con μx = μ y σ2x = σ2/n

• Se sabe que cerca del 95% de los valores posibles de x están a +/- 2 σ2x, de modo que μx +/- 2
σ2x, contiene al 95% de los posibles valores de x

• Como x es un estimador insesgado de μ, entonces μx +/- 2 σ2x, contiene aproximadamente al


95% de los valores posibles de x , ya que σ2x = σ/n (error estándar)

• Por lo tanto, x  2  es el intervalo de confianza al 95% para la media


n
Intervalo de confianza para la media

• Forma general de la fórmula para el intervalo de confianza (IC)


• Estimador puntual +/- (coeficiente de confiabilidad) (error
estándar)


IC x  (Z 1 - / 2)( )
n
Intervalo de confianza para la media

• Alfa (α) representa la probabilidad de error


• El IC al 90% tendrá una Z = 0.90 + 0.10/2 = .9500.
• La probabilidad de .9500 se encuentra situada en la tabla de Z entre 1.64 (.9495) y
1.65 (.9505), por lo que el valor asumido para este nivel de confianza es de 1.645
(la Z de este intervalo)
• Al 95%: Z = 0.95 + .05/2 = .9750, esta probabilidad tiene una Z = 1.96
• Al 97%: Z = 0.97 + .03/2 = .9850, esta probabilidad tiene una Z = 2.17

• Al 99%: Z = 0.99 + .01/2 = .9950, que tiene una probabilidad Z = 2.58


Intervalo de confianza para la media

• Ejercicio
• En un experimento diseñado para estimar el número promedio de
latidos/min del corazón en una población, se encontró que el promedio
de latidos/min para 49 personas era de 90. Si esos 49 pacientes
representan una muestra aleatoria y la población está normalmente
distribuida, con una desviación estándar de 10, encuentre:
a) IC al 90%
b) IC al 95% Para x
c) IC al 99%
Intervalo de confianza para la media

10
X  90 n  49   10  2  / n   1.4285
49

a) 90 +/- (1.645) (1.4285) = 90 +/- 2.3498 ≈ 2.35

• IC 90% (87.65, 92.35)

• Este intervalo contiene el valor 90, la media de latidos/minuto de la muestra de 49


individuos. Estamos 90% seguros de que los límites 87.65 y 92.35 cubren la verdadera media
μ
• Ojo: no podemos decir que existe un 90% de “probabilidad” de que μ se localice entre esos
límites. μ es fija y se localiza entre 87.65 y 92.35 o no lo hace
Intervalo de confianza para la media

10
X  90 n  49   10  2  / n   1.4285
49

b) 90 +/- (1.96) (1.4285) = 90 +/- 2.7998 ≈ 2.8


• IC 95% (87.2, 92.8)

c) 90 +/- (2.58) (1.4285) = 90 +/- 3.6855 ≈ 3.7


• IC 99% (86.3, 93.7)
Intervalo de confianza para la media

Mayor confianza, menor precisión, menor posibilidad de error


99%
86.3 93.7

95%
87.2 92.8

Menor confianza, mayor precisión, mayor posibilidad de error


90%
87.65 92.35
Intervalo de confianza para la diferencia de dos medias

• Se desea estimar la diferencia de dos medias muestrales


• Se extraen dos muestras independientes n1 y n2, se calculan X1 y X2
• La varianza de ese estimador:

12  22

n1 n2

• Cuando se conocen las varianzas poblacionales, el IC para la


diferencia de dos medias muestrales está dado por:

 
 12  22 
( X1  X 2 )  Z1    Error estándar
2 n1 n2 
 
Intervalo de confianza para la diferencia de dos medias

• Ejercicio:

• Calcule el IC al 95% para la diferencia de dos medias de la tensión arterial sistólica de dos grupos
de individuos adultos mayores de 65 años. Los datos de la media muestral y la desviación
estándar se muestran a continuación:

X1  165
X 2  180 ( x1  x 2 )  15
n1  65
Tomar el valor absoluto
n2  72
1  15
 2  20
Intervalo de confianza para la diferencia de dos medias

X1  165
 2  2
X 2  180
x1  x 2  Z1  1  2 
n1  65 2 n n 
n2  72  1 2 
1  15
 2  20

2 2
15 20 225 400
 X1  X 2      3.46  5.56  9.02  3.00
65 72 65 72

• 15 +/- (1.96) (3) = 15 +/- 5.88


• IC 95% (9.12, 20.88)
Un descanso
Diferencia de proporción de la muestra

• Algunas muestras de datos cualitativos deben compararse utilizando proporciones

• ¿Es mayor la proporción de mujeres con dengue que desarrollan síntomas


hemorrágicos que la de los varones?

• ¿Es diferente la incidencia acumulada de tuberculosis del año 2014 a la del 2015?

• ¿Es menor la proporción de niños que recibieron la vacuna ‘A’ que presentan una
reacción adversa que la de los usuarios de la vacuna ‘B’?
Diferencia de proporciones de la muestra

• La distribución muestral de la diferencia de


proporciones es ~ normal para tamaños de
muestra grande
• (n1p1>5, n1q1>5, n2p2>5 y n2q2>5)
• Entonces p1 y p2 tienen distribuciones
muestrales ~ normales, de modo que su
diferencia (p1-p2) tiene también una
distribución muestral ~ normal
Diferencia de proporciones de la muestra

• El interés de la investigación está dirigido a calcular la proporción de veces que ocurre un evento, en
una población dada

• La proporción de muestreo ( p̂ ) es el estimador de probabilidad de p

• Es decir, representa el valor del parámetro que tiene mayor probabilidad de obtenerse con los datos
de la muestra

• Basados en el teorema del límite central, la distribución de proporciones muestrales tiene las
siguientes propiedades:
• La media de la distribución, es la media de la población (p)
• La desviación estándar es [p (1-p)] / n
• La forma de la distribución muestral es ~ normal si ‘n’ es suficientemente grande
Diferencia de proporciones de la muestra

• p̂ = proporción de la muestra
• p = proporción de la población
p̂ - p
• 1 – p = Q en la población Z
p (1 - p)
• pq = varianza de la proporción n
• Condiciones: (np) > 5 y n (1 – p) > 5
Diferencia de proporciones de la muestra

• Suponga que la proporción de sobrevivencia de 5 años entre mujeres con diagnóstico


de cáncer mamario es p=0.20. Si tenemos una muestra con 300 mujeres ¿cuál es la
probabilidad de que la proporción muestral sea menor a 0.15?

ˆ  0.15 p  0.20n  300 p ( p


p ˆ  0.15)

p̂ - p 0.15  0.20
Z   2.165  2.17
p (1 - p) 0.20(1  0.20)
n 300

• La probabilidad de Z = -2.17 en la tabla es 0.0150


• Por lo tanto, la p (phat < 0.15) es 0.0150
Diferencia de proporciones de la muestra

Entrada de la tabla =0.0150

-α Z = - 2.17 α

Dado que buscamos p (phat < 15), el área solicitada se encuentra a la izquierda de Z = - 2.17
Diferencia de dos proporciones muestrales

(p̂1 - p̂ 2 ) - (p1 - p 2 )
Z
pˆ 1 (1  pˆ 1 ) pˆ 2 (1  pˆ 2 )

n1 n2

• Condiciones:

• (n1) (p1) > 5, (n1) (1-p1) > 5, (n2) (p2) > 5 y (n2) (1-p2) > 5
Diferencia de dos proporciones muestrales

• Ejemplo:
• Los hombres y mujeres adultos de una ciudad del norte del país
difieren en sus opiniones sobre la promulgación de la pena de
muerte para personas culpables de asesinato
• Se cree que 45% de los hombres y 30% de las mujeres están a
favor de la pena de muerte
• Si se preguntara a dos muestras aleatorias de 60 hombres y 80
mujeres su opinión sobre la promulgación de la pena de muerte,
¿Cuál es la probabilidad de que el porcentaje de mujeres a favor,
sea al menos 20% inferior al de los hombres?

Moore & McCabe, 2000


Diferencia de dos proporciones muestrales

• p1 = 0.45 n1 = 60 p2 = 0.30 n2 = 80

• Queremos saber p (phat1 – phat2 < 20), por lo tanto asumimos que phat1 – phat2 =
0.20

(p̂1 - p̂ 2 ) - (p1 - p 2 ) 0.20  (0.45  0.30)


Z 
pˆ 1 (1  pˆ 1 ) pˆ 2 (1  pˆ 2 ) 0.45(1  0.45) 0.30(1  0.30)
 
n1 n2 60 80
0.05
Z  0.6097  0.61
0.00675

• La probabilidad de Z = 0.61 en la tabla es 0.7291


• Por lo tanto, la p [(phat 1 – p hat 2) < 0.20] es 0.7291
Diferencia de dos proporciones muestrales

Entrada de la tabla = 0.7291

-α Z = 0.61 α

Área solicitada
Intervalo de confianza para la proporción de una población

pˆ (1  pˆ )
IC  p̂  Z (1 - ) 
 Error estándar
2 n

• Ejemplo:

• Calcule el IC 99% para una proporción poblacional de sífilis


congénita de .002 en una comunidad de 692,570 habitantes
IC para la proporción de una población

Z  2.58
pˆ  0.002, (1  pˆ )  0.998 pˆ (1  pˆ )
IC  p̂  Z (1 - )
n  692570 2 n

.002(0.998) 0.001996
  0.00000000288  0.0000537
692570 692570

• Por lo tanto, 0.002 +/- 2.58 (0.0000537) = 0.002 +/- 0.0001385

• IC 99% (0.001861, 0.002138) ≈ IC 99% (0.0019, 0.0021)


IC para la diferencia de dos proporciones muestrales

• Condiciones
• Si n1 > 30 y n1p (hat) 1 > 5, n1[1-p (hat) 1] > 5, y
• Si n2 > 30 y n2p (hat) 2 > 5, n2[1-p (hat) 2] > 5

• El intervalo de confianza está dado por

pˆ1(1  pˆ1) pˆ 2 (1  pˆ 2 )
IC  (p̂1 - p̂ 2 )  Z (1 - ) 
2 n1 n2

Error estándar
IC para la diferencia de dos proporciones muestrales

• Supuestos importantes (basados en el teorema del límite central):

1. P (hat) 1 – P (hat) 2 = estimador puntual no sesgado

2. Cuando n1 y n2 son grandes (>30), se aproximan a la distribución


normal

3. Que las proporciones de las poblaciones no están muy próximas a


0ó1
IC para la diferencia de dos proporciones muestrales

• Suponga que de una muestra de 150 pacientes admitidos en un


hospital, 129 de ellos tenían algún tipo de seguridad social. En una
segunda muestra de otro hospital, 160 pacientes fueron seleccionados
de forma similar, y 144 de ellos tenían algún tipo de seguro. Encuentre
el IC 90% para la diferencia en las proporciones de las poblaciones
IC para la diferencia de dos proporciones muestrales

n1  150
129
pˆ1   0.86 pˆ1(1  pˆ1) pˆ 2 (1  pˆ 2 )
150 
n2  160
n1 n2
144
pˆ 2   0.90
160
pˆ1  pˆ 2  0.86  0.90  0.04 Dado que es una proporción tomamos el valor absoluto

0.86(1  0.86) 0.90(1  0.90) 0.86(0.14) 0.90(0.10)


  
150 160 150 160

 0.0008026  0.0005626  0.0013651  0.0369472


IC para la diferencia de dos proporciones muestrales

• IC 90%, sabemos que Z = 1.645

• Por lo tanto,

• 0.04 +/- (1.645) (0.0369472)

• 0.04 +/- 0.0607782 ≈ .061

• Dado que es una proporción, tomamos valores absolutos, por lo tanto,

• IC 90% (0, 0.101)

• Tarea:

• Ahora, calcule los intervalos de confianza al 95% y 99%

También podría gustarte