Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CH 2pob PDF
CH 2pob PDF
MAPA CONCEPTUAL
________________________
Definicin de muestras
dep. e indep.
Ejemplo
MUESTRAS DEPENDIENTES
E INDEPENDIENTES
Diferencia de
proporciones
CONTRASTES DE
HIPOTESIS PARA
MUESTRAS
DEPENDIENTES E
INDEPENDIENTES
Diferencia de
medias
Casos prcticos
Por la definicin
Con Minitab
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
INTRODUCCIN
___________________
OBJETIVOS
________________________
CONOCIMIENTOS PREVIOS
___________________________________
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
CONCEPTOS FUNDAMENTALES
______________________________
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
93
92
106
102
87
89
92
92
102
101
95
96
88
88
110
105
H0 : A = B
H1 : A < B
(, >)
(1)
Observacin: En el caso que tuviramos la creencia de que el hacer dieta supone una
disminucin de la presin de 2 puntos entonces el contraste deberamos plantearlo como:
H0 : A B = 2
H1 : A B < 2
(, >)
Para realizar el contraste observamos en primer lugar que las muestras de antes, XA, y
despus de la dieta, XB, son dependientes, puesto que se han tomado del mismo individuo.
Para realizar este contraste consideramos la diferencia de ambas muestras: d = XA - XB.
Denotaremos por d = A-B y d a su media y desviacin estndar respectivamente.
Observamos pues que el contraste anterior es equivalente al contraste:
H 0 : d = 0
H 1 : d < 0 (, >)
d t n 1,
)* S
donde t(n-1,/2) es el valor que, en una t-Student con n-1 grados de libertad, deja a su
derecha un rea de /2 , y Sd es la desviacin estndar muestral de la v.a. d.
H 0 : d = 0
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
es:
t* =
d d
t Sudent (n 1)
Sd
En nuestro ejemplo o= 0.
En el caso de la observacin donde sospechbamos que la tensin bajaba dos puntos, o= 2.
d = 1 y S d = 2.390 .
Entonces con un 95% de confianza d (3,1) .
As siguiendo nuestro ejemplo:
Supongamos que un estadstico de recursos humanos desea analizar si los salarios por hora
de los obreros semiespecializados son los mismos, mayores o menores en Madrid que en
Barcelona. Los datos muestrales obtenidos son los siguientes:
Ciudad
Desviacin estndar
de la muestra
Tamao de la
muestra
Madrid
Barcelona
8,95 euros
9,1 euros
0,4 euros
0,6 euros
200
175
H 0 : M = B
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
X M X B N M B ,
M2
+ B
2
nM
nB
( X M X B ) t (min{nM 1, nB 1}, / 2)
M B
S M2
nM
S B2
nB
donde t(min{},/2) es el valor que, en una t-Student con los grados de libertad indicados,
deja a su derecha un rea de /2, y SM, SB son las desviaciones estndar de las muestras.
t* =
La expresin
ejemplo H 0 :
( X M X B ) ( M B ) H0
S M2
nM
( M B ) H0
2
+ SB
t (min{ n M 1, n B 1}, / 2)
nB
Observacin 1:
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Por cuestiones de impuestos sabemos que en Madrid los salarios son 1Euro por hora ms
que en Madrid, pero sospechamos que son ms de un euro
H 0 : M B = 1
H 1 : M B > 1
Para contrastar esta hiptesis utilizamos el mismo estadstico t* pero en este caso
( M B ) H 0 =1.
t* =
(8,95 9,1) 0
0,4 2
200
0,6 2
= 2,83
175
Entonces como min(199,174) = 174, para 174 grados de libertad, si vamos a la tabla de la tstudent a los grados de libertad ms cercanos, 150, podemos ver que el rea que hay por
debajo de t* = -2,83, ser menor que 0,005 que es el rea por debajo del valor t = -2,609 por
tanto el p-valor, si el contraste es unilateral, ser menor que 2*0,005 = 0,01.
Como el p-valor es menor que el nivel de significacin, si cogemos el 5%, por tanto
rechazaremos la hiptesis nula y por tanto existe evidencia estadstica de que s existen
diferencias significativas en los salarios de los trabajadores semiespecializados en las dos
ciudades.
Si el contraste hubiera sido unilateral por la derecha o por la izquierda, es decir, en la
hiptesis alternativa, hubiera aparecido > <, entonces el p-valor de t=-2,83 sera menor que
0,005 y habra que compararlo con el nivel de significacin para rechazar o no la hiptesis
nula.
Ejemplo:
En el campo de la informtica, se hace un experimento en el que se miden las velocidades de
los Pentium frente a los correspondientes AMD. Los resultados obtenidos son los siguientes:
X M = 110
X B = 100
2
= 35
SM
S B2 = 26
n M = 61
n B = 61
( X M X B ) t min{n M 1, n B 1},
en
nuestro
caso,
tenemos
una
)
2
t-student
S M2
con
nM
60
S B2
nB
grados
)
de
libertad
con
35 26
+
61 61
10 2.66
El intervalo de confianza para la diferencia de medias al 99% es (7.34 , 12.66).
Como el intervalo no contiene el valor 0, rechazamos que las medias de los Pentium y los
AMD sean iguales.
Solucin 2:
Podemos realizar un contraste de hiptesis para contestar la cuestin de forma directa.
H 0 : M = B
H1 : M = B
El estadstico del contraste es: t* =
( X M X B ) ( Mi Bo ) H 0
2
SM
nM
+ SB
10
= 10
1
nB
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
H 0 : PA = PB
P (1 PA ) PB (1 PB )
+
( p A p B ) N PA PB , A
nA
nB
X A N n A PA , n A PA (1 PA )
X B N n B PB , n B PB (1 PB ) .
( 2)
( p A p B ) z
p A (1 p A ) p B (1 p B )
+
nA
nB
donde z(/2) es el valor que, en una normal estndar, deja a su derecha un rea de /2 .
El estadstico de contraste para el test ser:
Z* =
( p' A p' B )
1
1
+
p ' p (1 p p )
n
n
B
A
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
opciones). Una posible buena aproximacin que utilizamos en los ejemplos que siguen
es p ' p =
n A p' A + n B p' B
la cual es la estimacin de la porcin completa de xitos de las
n A + nB
poblaciones combinadas.
De este modo para discutir el contraste en nuestro ejemplo calculamos:
p' p =
Z* =
1
1
+
p ' p (1 p p )
n A nB
0,71 0,644
1
1
+
0,6789 (1 0,6789)
100 90
= 0,9729
El ltimo paso ser calcular el p-valor de z = 0,9729. Como el contraste es bilateral por
las dos colas, debemos buscar el rea que hay por encima de z = 0,9729 y el rea que
hay por debajo de z = - 0,9729 que ser, p-valor = 2 * 0,1660=0,332, porque el rea por
debajo de z = 0,9729 es 1-0,8340, mientras el rea por debajo de z = - 0,9729 es 0,1660.
Como el p-valor es 0,332 que es mayor que el nivel de significacin del 5%, no
rechazaremos la hiptesis nula, por lo tanto existe evidencia estadstica de que los dos
mtodos de recogida de informacin sobre las propiedades de esta ciudad son
igualmente fiables.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
10
EV_1
13,2
8,2
10,9
14,3
10,7
6,6
9,5
10,8
8,8
13,3
EV_2
14,0
8,8
11,2
14,2
11,8
6,4
9,8
11,3
9,3
13,6
11
En los grficos resultantes se observa que no hay indicios para dudar de que se cumple el
supuesto de normalidad ya que los puntos se encuentran muy prximos a las respectivas
rectas.
Adems, los grficos nos proporcionan tambin el p-valor asociado al test de normalidad de
Anderson-Darling, siendo dicho p-valor suficientemente grande en ambos casos como para
no descartar la hiptesis nula de este contraste: que los datos siguen una distribucin normal.
,999
,99
Probability
,95
,80
,50
,20
,05
,01
,001
6,5
7,5
8,5
9,5
10,5
11,5
12,5
13,5
14,5
EV_1
Av erage: 10,629
StDev : 2,45121
N: 10
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
12
,999
,99
Probability
,95
,80
,50
,20
,05
,01
,001
6
10
11
12
13
14
EV_2
Av erage: 11,04
StDev : 2,51847
N: 10
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
13
N
10
10
10
Mean
10,629
11,040
-0,411
StDev
2,451
2,518
0,387
SE Mean
0,775
0,796
0,122
P-Value = 0,008
Los resultados obtenidos nos dicen que, en base a las observaciones registradas, hay una
probabilidad de 0,95 de que A-B sea un valor del intervalo (-0,688 , -0,134). Adems, con
un p-valor de 0,008 tambin podemos afirmar que hay indicios suficientes como para
descartar la hiptesis nula. Por tanto, parece sensato pensar que las dos medias
poblacionales son distintas. Notar que esta conclusin es coherente con que el valor 0 no
est incluido en el intervalo de confianza hallado para la diferencia de ambas medias.
2. Contraste de diferencia de medias en dos muestras independientes
Una agencia de valores desea analizar qu xito han tenido sus nuevos comerciales
en la obtencin de nuevos clientes para la intermediacin burstil. Para ello, se
tomaron dos muestras de 8 comerciales hombres y 8 comerciales mujeres donde se
observ la cantidad de nuevas cuentas conseguidas por cada comercial (hombre o
mujer) en el primer mes de trabajo.
Comerciales hombre
93
106
87
92
102
95
88
110
Comerciales mujer
92
102
89
92
101
96
88
105
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
14
a)
Construir una nueva columna con las diferencias entre C1 y C2. Hallar el intervalo de
confianza a nivel del 95% para la media de dichas diferencias.
Seleccionamos Calc > Calculator :
As generamos una nueva columna formada por la diferencia entre los valores registrados.
Seleccionamos ahora Stat > Basic Statistics > 1-Sample t :
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
15
T Confidence Intervals
Variable
C4
Mean
1,000
StDev
2,390
SE Mean
0,845
95.0 % CI
(
-1,000 ;
3,000)
De este resultado deducimos que en el 95% de los casos la diferencia de nuevos clientes
conseguidos entre comerciales hombres y mujeres estar entre 1 y 3, es decir, un mximo
de 3 nuevos clientes.
b)
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
16
N
8
Mean
1,000
StDev
2,390
SE Mean
0,845
T
1,18
P
0,28
Observar que el p-valor obtenido 0,28 es mucho mayor que 0,05 por lo cual no hay indicios
suficientes para rechazar la hiptesis nula. Esto quiere decir que las dos medias no son
significativamente diferentes.
De ello se deduce que la productividad en la captacin de nuevos clientes no depende de si
el comercial es hombre o mujer en el primer mes de trabajo.
Supongamos que disponemos los datos sobre las calificaciones obtenidas por dos
grupos de estudiantes de Estadstica de la UOC.
Grupo 1
5
7.5
6
2.5
8
9
7
6
4
3.75
9
10
8.25
9
6
Grupo 2
6.25
5.75
5
4.75
8
9
7.5
8
9
10
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
17
Variable
Grupo1
Grupo2
N
15
10
Mean
6,733
7,325
StDev
2,229
1,807
SE Mean
0,576
0,571
(
(
95,0 % CI
5,499;
7,968)
6,032;
8,618)
Si nos fijamos en los dos intervalos de confianza, estos se solapan. Esto implica que si
estamos interesados en comparar las medias de ambas poblaciones, estas media pertenecen
a intervalos con parte en comun, lo cual hace pensar que estas medias poblacionales, es
decir, las medias del grupo1 y del grupo2 pueden ser iguales. En el siguiente apartado
veremos si tras contrastar la hiptesis de igualdad de medias podemos concluir lo mismo.
b) Calcular un intervalo de confianza para la diferencia de medias. Utilizando este intervalo
contrastar la hiptesis de que la medias en los dos grupos no difieren.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
18
StDev
6,73
7,33
SE Mean
2,23
1,81
0,58
0,57
P = 0,49
DF = 23
P = 0,47
DF = 21
StDev
6,73
7,33
SE Mean
2,23
1,81
0,58
0,57
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
19
c) Que error de equivocarnos, si concluimos que hay diferencias entre las poblaciones,
deberamos estar dispuestos a asumir.
Si observamos por ejemplo el caso en el cual consideramos las varianzas iguales en las dos
poblaciones, el error de equivocarnos al rechazar la hiptesis de igualdad de medias es de
0,47. Este error es muy alto, por lo que debemos concluir que no podemos rechazar la
hiptesis nula de igualdad de medias.
d) Comentar y contrastar las hiptesis que hemos asumido para poder realizar el
experimento de comparar las dos muestras.
Las hiptesis que hemos utilizado para poder realizar el ejercicio son:
-
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
20
,999
,99
Probability
,95
,80
,50
,20
,05
,01
,001
2,2
3,2
4,2
5,2
6,2
7,2
8,2
9,2
10,2
Grupo1
Average: 6,73333
StDev: 2,22900
N: 15
El p-valor del contraste es >0,15. Por lo tanto no podemos rechazar la hiptesis de que los
datos provengan de una distribucin normal.
Para la segunda muestra obtendramos los siguientes resultados:
Normal Probability Plot
,999
,99
Probability
,95
,80
,50
,20
,05
,01
,001
5
10
Grupo2
Average: 7,325
StDev: 1,80682
N: 10
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
21
y completamos la ventana
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
22
Sample
1
2
X
58
61
N
2000
2500
Sample p
0,029000
0,024400
El intervalo de confianza para la diferencia de proporciones, a nivel del 95%, est entre 0,0049 y 0,0141. Esto parece apuntar a que el porcentaje de empresas que tiene alguna
anomala en sus cuentas contables no es significativamente diferente en los dos aos.
El estadstico de contraste es z = 0,96 cuyo p-valor es 0,339 que al ser menor que el nivel
de significacin del 5%, el p-valor resulta coherente con la impresin anterior, por lo que no
rechazaremos la hiptesis nula.
Es inmediato comprobar que se cumplen los supuestos para este caso, por lo que
pasaremos a calcular un intervalo de confianza del 95% para la diferencia entre
proporciones y a realizar el correspondiente test de hiptesis:
Seleccionamos: Stat > Basic Statistics > 2 Proportions :
Completamos la ventana principal y la de opciones como sigue:
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
23
El intervalo de confianza para la diferencia de proporciones, a nivel del 95%, tiene por
extremos los valores positivos 0,003 y 0,117 (observar que no contiene el valor 0, aunque por
muy poco). Esto parece apuntar a que el porcentaje de defectos en los discos del anunciante
es significativamente superior al porcentaje de la competencia. Para un nivel de significacin
del 0,05, el p-valor resulta coherente con la impresin anterior, por lo que resulta sensato
rebatir la afirmacin del anunciante (si bien las cosas cambiaran si tomsemos = 0,01).
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
24
BIBLIOGRAFA
___________________________________
[1]
D.A. Lind, R.D. Mason, W.G. Marchal (2001): Estadstica para Administracin y Economa.
Ed. Irwin McGraw-Hill.F.
[2]
[3]
[4]
Richard I. Levin & David S. Rubin (1996): Estadstica para Administradores. Ed. Prentice
Hall.
[5]
[6]
ENLACES
___________________________________
Applets
sobre
Conjunto
de
applets
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
25