Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de dos muestras
Josep Gibergans Bguena
P08/75057/02309
FUOC P08/75057/02309
ndice
Sesin 1
Contrastes sobre la diferencia de medias........................................
1. Introduccin .........................................................................................
10
11
12
13
4. Resumen................................................................................................
14
Ejercicios ....................................................................................................
15
Sesin 2
Contrastes sobre la diferencia de proporciones ............................
18
1. Introduccin .........................................................................................
18
18
21
4. Resumen................................................................................................
22
Ejercicios ....................................................................................................
23
FUOC P08/75057/02309
1. Introduccin
En esta sesin veremos cmo debemos hacer un contraste de hiptesis sobre
diferencias de medias poblacionales. Consideraremos dos muestras de observaciones y compararemos sus medias contrastando hiptesis sobre su diferencia y construyendo intervalos de confianza para esta diferencia.
Por ejemplo, podemos estar interesados en conocer si hay una diferencia sig-
Atencin!
Es muy importante no confundir este tipo de problemas con
los de datos aparejados,
en los que tenemos una muestra de observaciones de dos
variables.
H 0:
1 = 2
1 2
1 > 2
Notacin
A veces en lugar de:
1 2
H 0:
escribiremos:
H 0: 1 2 0
FUOC P08/75057/02309
1 < 2
De la misma manera que en el contraste de la media, supondremos poblaciones normales y consideraremos el caso de varianzas poblacionales conocidas
y el de varianzas poblacionales desconocidas.
2
X 2 N 2 , --------
n 2
X1 X2 N 1 2 ,
2
1
2
2
------ + ------
n 1 n 2
Tipificando esta variable aleatoria, obtenemos una nueva variable que se distribuye segn una N(0,1):
X1 X2 1 2
---------------------------------------------------- N 0, 1
2
2
1 2
------ + -----n1 n2
Si suponemos que la hiptesis nula es cierta, entonces 1 2 = 0; por tanto:
X1 X2
----------------------- N 0, 1
2
2
1 2
------ + -----n1 n2
En resumen, bajo el supuesto de la hiptesis nula cierta (H0: 1 = 2) tenemos que el estadstico de contraste:
x1 x2
x1 x2
- = --------------------Z = ---------------------, donde X1 X2 =
2
2
X X
1 2
1
2
------ + -----n1 n2
1 2
------ + -----n1 n2
tndar,
corresponde a una observacin de una ley N(0,1).
es el error es-
2
2
N 1 + 2 , 1 + 2
FUOC P08/75057/02309
Una vez que hemos calculado el valor del estadstico de contraste, debemos
determinar el p-valor. El p-valor depende de la hiptesis alternativa planteada:
El p-valor es la probabilidad
de que un resultado sea al
menos tan extremo como
el estadstico de contraste obtenido.
n1 = 150,
x 1 = 111,2
Competencia:
n2 = 125,
x 2 = 109,6
Suponiendo que las muestras son independientes y se han obtenido de dos poblaciones normales con desviaciones tpicas conocidas 1 = 10,4 y 2 = 12,5, con qu conclusin podemos llegar al 5% de significacin?
1. Expresamos las hiptesis:
1 2 = 0
1 2 0
H0:
H1:
Hiptesis nula:
Hiptesis alternativa:
1 2
------ + ------ =
n1 n2
El p-valor
12,5
10,4
-------------- + -------------- = 1,40
150
125
FUOC P08/75057/02309
1 = 2 = , con desconocida. Esta desviacin tpica comn se puede estimar por medio de la frmula:
n1
s =
1
2
---------------------------
x i1 x 1 +
n 1 + n 2 2 i
=1
n2
xi2 x2
i=1
donde xi1 es la i-sima observacin de la muestra 1 y xi2 es la i-sima observacin de la muestra 2. Tambin podemos escribir esta expresin de la manera
siguiente:
2
s =
2
n 1 1 s 1 + n 2 1 s 2
-------------------------------------------------------n1 + n2 2
Como siempre, a continuacin calcularemos el p-valor correspondiente al estadstico de contraste calculado. Dependiendo de la hiptesis alternativa, tenemos:
Si H1: 1 2 0, entonces p = 2P(tn1 + n2 2 t)
Si H1: 1 2 0, entonces p = P(tn1 + n2 2 < t)
Si H1: 1 2 0, entonces p = P(tn1 + n2 2 > t)
Segn el pvalor obtenido en comparacin con el nivel de significacin escogido, rechazaremos o no la hiptesis nula de igualdad de medias.
Ejemplo de contraste sobre la diferencia de medias en el caso de varianzas
poblacionales desconocidas pero iguales
Un fabricante de bombillas asegura que sus bombillas tienen una mayor duracin que las de
una nueva marca coreana. A partir de la duracin (en horas) de n1 = 25 bombillas del fabricante y de n2 = 15 bombillas de la nueva marca, elegidas de forma aleatoria, hemos obtenido:
2
Para el fabricante:
x 1 = 827 ,
s 1 = 9.005
x 2 = 812 ,
s 2 = 7.984
Supondremos que las dos poblaciones se distribuyen normalmente con varianzas iguales
y desconocidas. Haremos un contraste de hiptesis a un nivel del 0,05 para determinar
si, tal como parece, el fabricante tiene razn.
Debemos contrastar la diferencia de medias para saber si hay una diferencia significativa
o podemos considerar que stas son iguales. Nos dan las medias y las varianzas muestra-
Frmula
Esta frmula para estimar es
parecida a la de la desviacin
tpica para una nica muestra.
La diferencia est en el hecho
de que se suman los totales de
los trminos al cuadrado por
separado y despus se dividen
por el tamao muestral total
menos dos.
FUOC P08/75057/02309
les y desconocemos las varianzas poblacionales, que supondremos iguales. Con todos estos supuestos, hacemos lo siguiente:
1. Expresamos las hiptesis:
Hiptesis nula:
Hiptesis alternativa:
1 2 = 0
1 2 > 0
H 0:
H 1:
s =
1 x2
1
1
1
1
= s ----- + ----- = 2.937 ------ + ------ = 0,959
n1 n2
25 15
n 1 1 s 1 + n 2 1 s 2
--------------------------------------------------------- =
n1 + n2 2
=
25 1 9,005 + 15 1 7,984
---------------------------------------------------------------------------------- =
25 + 15 2
216,120 + 111,776
--------------------------------------------------- =
38
327,896
---------------------- =
38
24 9,005 + 14 7,984
-------------------------------------------------------------- =
38
8,628842 = 2,937
n1 = 80,
x 1 = 11,2 ,
s1 = 2,2
Motor 2:
n2 = 75,
x 2 = 11,8,
s2 = 3,7
10
FUOC P08/75057/02309
No tenemos informacin sobre el tipo de distribucin que tienen los consumos de estos
motores. Con un nivel de significacin del 1%, podemos asegurar que el consumo es el
mismo?
Siguiendo el mismo planteamiento de siempre, haremos un contraste de hiptesis de la diferencia de medias.
1. Expresamos las hiptesis:
1 2 = 0
1 2 0
Hiptesis nula:
H0 :
Hiptesis alternativa: H1:
sx
s1
s2
------- + ------ =
n1 n2
3,7
2,2
----------- + ----------- = 0,493
80
75
Este intervalo de confianza contiene la diferencia de medias con un nivel de certeza igual a (1 )%.
11
FUOC P08/75057/02309
X1 X2 N 1 2 ,
2
2
1 2
------ + ------
n 1 n 2
Supongamos que queremos un nivel de confianza del (1 )%. En primer lugar, consideraremos la variable tipificada:
X1 X2 1 2
- N 0,1
Z = ---------------------------------------------------2
2
1 2
------ + -----n1 n2
12
FUOC P08/75057/02309
1
2
1
2
P z 2 ----------------------------------------------------- z 2 = 1
2
2
1 2
--------+
n1 n2
donde z/2 y z son los valores crticos. Son aquellos que hacen que P(Z z2) =
= 2 y P(Z z/2 = 2. Trabajando un poco con esta expresin, tenemos:
Error estndar
Recordad que el error estndar
de la diferencia de medias es:
X 1 X 2 z 2 X 1 X2 u 1 u 2 X 1 X 2 + z 2 X 1 X2
Finalmente, sustituyendo los valores muestrales, obtendremos el correspondiente intervalo de confianza para la diferencia de medias en el caso de varianzas conocidas:
x 1 x 2 z 2 x1 x2
x
2
= 1,40
Los valores crticos para un 2 = 0,025 son z 2 = 1,96 . El intervalo de confianza es:
x1 x2 z 2 x
1 X2
1 2
------ + -----n1 n2
13
FUOC P08/75057/02309
sigue una distribucin t de Student con n1 n2 2 grados de libertad. De manera que si fijamos un nivel de confianza 1 , podemos determinar los valores crticos t 2,n1 + n2 2 y t 2,n1 + n2 2 que aseguran que:
X1 X2 1 2
- t 2,n + n 2 = 1
P t 2,n1 + n2 2 ---------------------------------------------------1
2
s
x 1 x2
Por tanto:
X 1 X 2 t 2,n1 + n2 2 s x1 x2 1 2 X 1 X 2 + t 2,n1 + n2 2 s x1 x2
t 2,n + n 2 s x x
x1 x2
1
2
1
2
+n 2
2
1 + n2 2
sx
= 0,959
= t 0,025;38 = 2,0244
1 x2
14
FUOC P08/75057/02309
= 0,493
4. Resumen
En esta sesin hemos visto cmo hacer contrastes de hiptesis para la diferencia de medias de dos muestras aleatorias e independientes. Hemos distinguido
tres casos:
1) Muestras normales con varianzas poblacionales conocidas
2) Muestras normales con varianzas poblacionales desconocidas e iguales
3) Muestras grandes no normales
Tambin hemos aprendido a construir intervalos de confianza para la diferencia de medias considerando estos mismos tres casos.
15
FUOC P08/75057/02309
Ejercicios
1. Una tienda de ordenadores porttiles equipa sus modelos con bateras de
la marca Durams. Estas bateras son de buena calidad, pero pasado cierto
tiempo, comienzan a dar problemas. Para intentar dar una mejor calidad a las
ventas, el responsable del negocio se plantea la posibilidad de cambiar la marca
de bateras por la de Enerplus. Dado que el precio de estas nuevas bateras es superior al de las de la marca Durams, antes de tomar una decisin quiere tener
la seguridad de que con este cambio gana calidad en el producto final. Se prueban cincuenta bateras Durams y cincuenta y cinco Enerplus, y se obtienen
unas duraciones medias de treinta y siete, y cuarenta y tres meses, respectivamente. Suponiendo que las desviaciones tpicas de las dos marcas son conocidas
e iguales a cinco meses, creis que se ganar calidad con el cambio de marca?
2. Se quiere probar que, a la hora de cargarse al poner en funcionamiento un ordenador, el sistema operativo A es ms rpido que el sistema operativo B. Se han
medido los tiempo de arranque en seis ordenadores equipados con el sistema A y
en otros seis con el sistema B. Los tiempos (en segundos) han sido los siguientes:
Sistema A
10,7
14,8
12,3
16,5
10,2
11,9
Sistema B
13,4
11,5
11,2
15,1
13,3
12,9
Solucionario
1.
Datos del problema:
Bateras Durams:
n1 = 50;
x 1 = 37 ;
1 = 5
Bateras Enerplus:
n2 = 55;
x 2 = 43 ;
2 = 5
En este problema deberemos hacer un contraste de hiptesis sobre la diferencia de medias de las duraciones de las bateras. En este caso conocemos las desviaciones tpicas de las poblaciones. Puesto que lo que nos piden es saber si se
ganar en calidad, plantearemos un contraste de hiptesis con las hiptesis
siguientes:
1) Expresamos las hiptesis:
Hiptesis nula. Las medias son iguales:
H 0:
1 = 2
(1 2 = 0)
Tipos de contraste
Contraste de diferencia de medias en el caso de varianzas conocidas.
16
FUOC P08/75057/02309
Hiptesis alternativa. Las medias no son iguales, ya que la media de duracin de la batera Enerplus es mayor que la media de la duracin de la batera Durams, de manera que se gana calidad con el cambio:
H 1:
1 < 2
(1 2 < 0)
x1 x 2 =
1 2
------ + ------ =
n1 n2
25
------ + 25
------ = 0,977
50 55
X1 X2
43- = 37
-----------------El estadstico de contraste: z = ----------------------= 6,14
0,977
x 1 x2
4) Mediante las tablas de la ley normal (0,1) calculamos el p-valor correspondiente a este estadstico de contraste. Tenemos que: p = P(Z z) = P(Z 6,14 ) = 0,0.
5) Puesto que 0,0 < 0,05, entonces rechazamos la hiptesis nula y llegamos a
la conclusin de que con el cambio de bateras ganaremos calidad.
2. Es un problema de diferencia de medias.
a) Debemos contrastar la diferencia de medias para saber si hay una diferencia
significativa o podemos considerar que stas son iguales. A partir de los datos
calculamos:
Tipos de contraste
Contraste de diferencias de
medias en el caso de varianzas
desconocidas.
1
Media de la muestra A: x A = -----nA
xAi
= 12,73
i=1
1
Media de la muestra B: x B = -----nB
1
--------------nA 1
x A xAi
= 2,44
i=1
xBi
= 12,9
i=1
1
--------------nB 1
x B xBi
= 1,42
i=1
H 0:
A B 0
Hiptesis alternativa:
H 1:
A B 0
17
FUOC P08/75057/02309
1
1
s xA xB = s ------ + ----- = 1,155, donde s =
nA nB
n A 1 s A + n B 1 s B
--------------------------------------------------------- = 1,999
nA + nB 2
18
FUOC P08/75057/02309
1. Introduccin
En esta sesin veremos cmo tenemos que hacer un contraste de hiptesis sobre
la diferencia entre dos proporciones y cmo tenemos que determinar un intervalo de confianza con un nivel de significacin determinado.
Este hecho puede ser de inters en algunos casos; veamos algunos ejemplos:
Para saber si hay diferencia entre la proporcin de alumnos de la UOC que
se conectan por la maana o los que lo hacen por la noche.
Para saber si hay diferencia entre la proporcin de personas que estn a favor de una propuesta y de las que estn en contra.
Para saber si existe diferencia entre la proporcin de consumidores que prefieren un producto de un fabricante determinado y los que lo prefieren de la
competencia, etc.
Estudiaremos la diferencia de proporciones para saber cmo se distribuyen, determinaremos el error estndar y el estadstico de contraste. Con esto podremos
hacer el contraste de hiptesis, as como encontrar intervalos de confianza para
la diferencia de proporciones.
las muestras para poder decir si stos son iguales. Esto lo haremos mediante el
contraste de hiptesis:
Hiptesis nula:
H 0:
p1 = p2
Hiptesis alternativa:
Bilateral:
H 1:
p1 p 2
Unilateral:
H 1:
p1 p 2
Unilateral:
H 1:
p1 p 2
19
FUOC P08/75057/02309
P 1 N p 1 ,
p 1 1 p 1
----------------------- y P 2 N p 2 ,
n1
p 2 1 p 2
------------------------
n2
p 1 1 p 1 p 2 1 p 2
------------------------- + ------------------------
n1
n2
Nota
Hay que tener presente que
cuanto mayores sean las
muestras, ms precisa ser
la aproximacin. Se obtienen
resultados muy buenos con
muestras de tamao superior
a 100.
20
FUOC P08/75057/02309
En resumen, si la hiptesis nula (H0: p1 = p2) es cierta, el estadstico de contraste que obtenemos y el error estndar son:
p 1 p 2
p 1 p 2
- = ---------------- ; s p =
z = -----------------------------------------------s p
1
1 ----p 1 p ----+
n 1 n 2
1
1
p 1 p ----- + -----
n 1 n 2
n 1 p 1 + n 2 p 2
y p = ----------------------------es la estimacin de la proporcin poblacional comn.
n1 + n2
Este estadstico de contraste es una observacin de una ley N(0,1).
Como siempre, una vez calculado el valor del estadstico de contraste, determinaremos el p-valor. Este valor depende de la hiptesis alternativa planteada:
Si H1: p1 p2 0, entonces p = 2 P(Z z)
Si H1: p1 p2 0, entonces p = P(Z z)
Si H1: p1 p2 0, entonces p = P(Z z)
Ejemplo de contraste sobre la diferencia de proporciones
Se quiere construir una central nuclear cerca de un pueblo. Por un lado, la central puede proporcionar puestos de trabajo tanto a gente del pueblo como del resto de la comarca; por el
otro, algunas personas del pueblo creen que puede resultar peligrosa para la salud. Se hace
una encuesta entre los habitantes del pueblo y los del resto de la comarca. Los resultados
son los siguientes: 120 de 200 encuestados del pueblo y 240 de 500 encuestados del resto de
la comarca estn de acuerdo con su construccin. Haremos un contraste de hiptesis a un
nivel del 0,05 para determinar si la proporcin de encuestados del pueblo que estn a favor
de la propuesta es mayor que la proporcin de encuestados del resto de la comarca.
Sea p1 la proporcin real de votantes del pueblo y p2 la de la comarca que estn a favor de
la propuesta. Ahora debemos hacer una prueba de la diferencia entre dos proporciones:
1. Expresamos las hiptesis:
Hiptesis nula:
H 0:
Hiptesis alternativa: H1 :
p1 p2 = 0, es decir, p1 = p2
p1 p2 0, es decir, p1 p2
s p =
n 1 p 1 + n 2 p 2
1
1
p 1 p ----- + ----- = 0,0418 donde: p = ----------------------------= 0,514
n1 n2
n1 + n2
Atencin!
Es muy importante no confundir la p de la proporcin con la
p del p-valor.
21
FUOC P08/75057/02309
x
120
3
con p 1 = -----1 = ---------- = --- = 0,60
200
5
n1
x
240
12
p 2 = -----2 = ---------- = ------ = 0,48
500
25
n2
es decir, p 1 p 2 z 2 s p , donde:
s p =
n 1 p 1 + n 2 p 2
1
1
p 1 p ----- + ----- y p = ---------------------------- n1 n2
n1 + n2
FUOC P08/75057/02309
22
4. Resumen
En esta sesin hemos aprendido a hacer contrastes de hiptesis para la diferencia de dos proporciones en el caso de muestras grandes. Despus hemos visto
cul es el procedimiento para construir intervalos de confianza para la diferencia de proporciones.
23
FUOC P08/75057/02309
Ejercicios
1. Una firma manufacturera de cigarrillos distribuye dos marcas. De una
muestra de 150 fumadores, 29 prefieren la marca A, y de otra muestra de 200
fumadores, 56 prefieren la marca B. A partir de estos datos, podemos concluir
que los fumadores prefieren ms una marca que otra? Utilizad un nivel de significacin 0,1.
2. Se realiza un estudio para determinar la efectividad de una nueva vacuna
contra la gripe. Se administra la vacuna a una muestra aleatoria de 2.000 personas y de este grupo, 23 sufren la enfermedad. Como grupo de control se seleccionan al azar 2.500 personas que no han sido vacunadas. De este grupo, 98
padecen la gripe. Construid un intervalo de confianza del 95% para la diferencia de proporciones. Qu podis decir de la efectividad de la nueva vacuna?
Solucionario
1.
Sean p1 y p2 las proporciones reales de consumidores de la marca A y B, respectivamente. Ahora tenemos que hacer una prueba de la diferencia entre dos proporciones:
1) Expresamos las hiptesis:
Hiptesis nula:
H0: p1 p2 = 0
Hiptesis alternativa:
H1: p1 p2 0
n1 = 2.000,
x1 = 23
Personas no vacunadas:
n2 = 2.500,
x2 = 98
FUOC P08/75057/02309
24
23
98
p 1 = --------------- = 0,0115, p 2 = --------------- = 0,0392
2.000
2.500
n 1 p 1 + n 2 p 2
2.000 0,0115 + 2.500 0,0392
p = ----------------------------= ---------------------------------------------------------------------------------- = 0,0269
n1 + n2
2.000 + 2.500
s p =
1
1
p 1 p ----- + ----- =
n1 n2
1
1
0,0269 1 0,0296 --------------- + --------------- = 0,0049
2.000 2.500