Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lectura 3 - Otras Pruebas de HipóTesis
Lectura 3 - Otras Pruebas de HipóTesis
-1-
( fe fo )2
=
fe
i =1
k
2
k 1
-2-
Como puede observarse en el estadstico de prueba, el valor que surja a partir de los
datos mustrales ser elevado cuando difieran sistemticamente las frecuencias
observadas de las esperadas (que se construyen teniendo en cuenta la distribucin
hipottica indicada en la hiptesis nula). Por ello es que valores elevados del
estadstico caern en la zona de rechazo.
Veamos una aplicacin completa de esta prueba.
Se supone que el nmero de defectos en un dispositivo para pagos
electrnicos sigue una distribucin Poisson.
Toma una muestra aleatoria de 43 dispositivos y se observa el nmero
de defectos. Los resultados obtenidos fueron los siguientes:
Nmero de
defectos
Frecuencia
observada
25
10
3 ms
-3-
28
43
= 0,65
Podemos utilizar ahora el parmetro estimado l=0,93, para calcular con
la frmula de la distribucin de Poisson o con la tabla las frecuencias
esperadas:
e x
P( x) =
x!
Con esta frmula obtuvimos las siguientes probabilidades, que luego
aplicaremos al tamao total de la muestra para calcular las frecuencias
esperadas.
Defectos
Probabilidad
0,52205
0,33933
0,10519
3 ms
0,03343
-4-
Frecuencias esperadas:
Defectos
Frecuencia
Esperada
0
1
2
3 o ms
Total
22,44815
14,59119
4,52317
1,43749
43
Defectos
( fe fo )2
=
fe
i =1
k
2
k 1
14,59119
10
4,52317
3 ms
1,43749
-0,56251
43
43
Total
0,3164175 0,22011805
2,43703653
-5-
Edades
Jvenes
180
150
90
Adultos plenos
120
180
70
Adultos mayores
70
100
130
-6-
Cambios en la situacin
econmica personal en el ltimo
ao
Mejor
Se mantuvo
Empeor
igual
Grupo
Jvenes
Total
180
150
90
420
42,9%
35,7%
21,4%
100,0%
% en cambio
48,6%
34,9%
31,0%
38,5%
% del total
16,5%
13,8%
8,3%
38,5%
120
180
70
370
32,4%
48,6%
18,9%
100,0%
% en grupo de
de edad
Total
edad
Adultos
Total
plenos
% en grupo de
edad
% en cambio
32,4%
41,9%
24,1%
33,9%
% del total
11,0%
16,5%
6,4%
33,9%
Adultos
Total
mayores
% en grupo de
70
100
130
300
23,3%
33,3%
43,3%
100,0%
18,9%
23,3%
44,8%
27,5%
6,4%
9,2%
11,9%
27,5%
370
430
290
1090
33,9%
39,4%
26,6%
100,0%
100,0%
100,0%
100,0%
100,0%
33,9%
39,4%
26,6%
100,0%
edad
% en cambio
% del total
Total
Total
% en grupo de
edad
% en cambio
% del total
-7-
Considerando los datos de la tabla previa, se puede observar que entre los que
mejoraron, es ms elevada la proporcin de jvenes, respecto del total, en tanto, entre
los que se mantuvieron, la proporcin que se destaca es la de Adultos plenos.
Finalmente, entre los individuos que vieron desmejorar su situacin econmica,
presentan proporcionalmente una mayor presencia de Adultos mayores que el resto.
A los fines de corroborar si tal observacin puede sostenerse, o bien si se trata slo de
una casualidad presente en los datos de la muestra, la prueba Chi cuadrado permite
someter a contraste las siguientes hiptesis:
Ho:
Las variables son independientes entre s (es decir, no tienen relacin)
H1:
Las variables no son independientes.
Observe que si bien estamos interesados en considerar la vinculacin entre las
variables, la hiptesis nula parte del supuesto neutral de no relacin o independencia.
En el caso de rechazar la hiptesis nula, detectaremos la relacin que suponemos que
existe, que motiv el estudio.
El estadstico justamente considerar esta situacin, en la cual, si los valores
observados se distancian significativamente del valor esperado bajo el supuesto de
independencia, el estadstico resultar en un valor elevado (ubicado en la zona de
rechazo), y se rechazar la hiptesis nula. El estadstico Chi cuadrado est dado por:
2 =
( fo fe )2
fe
-8-
Nuevamente puede observarse que si las frecuencias esperadas (bajo la hiptesis nul
cierta de independencia o no relacin entre variables), difieren sistemticamente de las
observadas, tendremos elementos como para descartar la independencia, y
concluiremos que existe relacin entre las variables. En tal caso, el valor del
estadstico asumir valores elevados. De lo contrario, si en general, las frecuencias
esperadas (bajo la hiptesis de no relacin) no difieren de las observadas, no
tendremos elementos para descartar la independencia.
Continuemos ahora con el ejemplo, obteniendo las frecuencias esperadas y
completando el test.
Suponiendo una significacin de 0,05, dado que se trabaja con 4 grados de libertad
(tres filas y tres columnas), el valor crtico del estadstico chi cuadrado es: 9,5.
La regla de decisin ser:
Si el estadstico obtenido con datos muestrales es inferior a 9,5, no se rechazar la
hiptesis nula.
Si el estadstico basado en los datos muestrales es mayor a 9,5, se rechazar la
hiptesis nula de independencia, y se concluir que existe relacin entre las variables.
-9-
fe =
420.370
1090
La siguiente tabla sintetiza las frecuencias marginales para poder calcular las
frecuencias esperadas de todas las celdas interiores de la tabla.
Mejor
Se
mantuvo
igual
Empeor
Jvenes
Adultos plenos
Adultos
mayores
Total
370
430
290
Total
420
370
300
1090
Frecuencias esperadas
- 10 -
Edades
142,569
Jvenes
Adultos
plenos
Adultos
mayores
165,688
Total
111,743
420
125,596
145,963
98,440
370
101,835
118,349
79,817
300
Total
370
430
290
1090
Edades
37,431
Jvenes
Adultos
plenos
Adultos
mayores
15,688
5,596
34,037
31,835
21,743
28,440
18,349
50,183
Finalmente los valores que suman de cada celda para construir el estadstico muestral.
El valor del estadstico basado en datos muestrales es: 76,3, que cae en la zona de
rechazo, por lo tanto se concluye las variables grupo de edad de los encuestados se
relaciona con la percepcin de cambio en su situacin econmica en el ltimo ao.
- 11 -
Tabla con los valores que se suman para obtener el estadsitico muestral, cada
( f fe )2
celda contiene los valores de o
, para la celda ij, respectivamente.
fe
ij
Cambios en la situacin econmica
personal en el ltimo ao
Mejor
Se mantuvo igual
Empeor
Edades
Jvenes
9,827
1,485
4,231
Adultos
plenos
0,249
7,937
8,217
Adultos
mayores
9,952
2,845
31,552
5. ANLISIS DE VARIANZA
- 12 -
- 13 -
Zona 2
Observacin 1
Zona 3
8
Observacin 2
Observacin 3
7,67
Hiptesis alternativa:
Al menos una de las medias de los grupos es diferente a las dems.
En el ejemplo planteado, quedaran expresadas de la siguiente manera.
- 14 -
Hiptesis nula:
Ho: Las medias de frecuencia mensual de compra de las 3 zonas son iguales
Hiptesis alternativa:
Al menos una de las medias de las zonas es diferente a las dems.
nj
SST = ( xij x ) 2
j =1 i =1
Donde
x es la gran media
xij
Zona 3
8
Observacin 2
Observacin 3
7,67
Gran Media
Suma de cuadrados totales
Zona 2
5,2
55,56
- 15 -
SSA = n j ( x j x ) 2
j =1
Donde
xj
SSD =
j =1
nj
(x
i =1
ij
x j )2
Donde
xj
Veamos los resultados de las SSE y SSD para los datos del ejemplo:
Observacin 1
Zona 1
2
Zona 2
6
Zona 3
8
Observacin 2
Observacin 3
7,67
- 16 -
Zona 1
Suma de cuadrados
(dentro)
Zona 2
2
Zona 3
0,67
4,67
Suma de cuadrados
entre
Gran Media
Suma de cuadrados
totales
50,86
5,2
55,56
Las medias de los tres grupos, parecen ser bastante diferentes. Las sumas de
cuadrados en cada grupo son relativamente reducidas. En total suma 4,56. Por otra
parte, si analizamos la SS total, obtenemos 55,56. En definitiva, calcular la varianza
(suma de cuadrados) basados en la variabilidad en los grupos conduce a una
estimacin mucho menor de la varianza que calcularla basada sobre la variabilidad
total. La razn para ello en este ejemplo es que hay una gran diferencia entre las
medias, y esta diferencia genera la diferencia entre las SS.
Cada una de las sumas de cuadrados descriptas tiene asociados grados de libertad
diferentes:
La SSE tiene c-1 grados de libertad, tambin debido a que si se conoce la gran
media, al menos uno de los valores de las medias de los grupos quedar
automticamente determinado.
La SSD tiene n-c grados de libertad, ya que en cada uno de los c grupos
resultan (nj -1) grados de libertad, ya que en cada grupo se pierde un grado de
libertad por el clculo de la media muestral de ese grupo.
- 17 -
CMT =
CME =
SST
n 1
SSE
c 1
CMD =
SSD
nc
- 18 -
F=
CME
CMD
- 19 -
de
Grados de
libertad
2
Cuadrados
medios
25,44
32,71
4,67
0,778
55,56
- 20 -
x j x j'
Para todo
j j'
Es decir, para todas las medias de diferentes grupos.
c(c 1)
2
Comparaciones de medias de a pares.
- 21 -
ac = QU ( c , n c )
CMD 1
1
.
+
2 n j n j '
Si los tamaos de las muestras de cada grupo son diferentes debe calcularse
el ac para cada par de medias de muestra.
El valor de Q se obtiene de la tabla correspondiente a la tabla de Tuker Kramer.
3. Finalmente se comparar las diferencias obtenidas en (1) con el ac que le
corresponde.
Si la diferencia obtenida excede al ac, pueden considerarse distintas las
medias respectivas.
- 22 -
3. Homogeneidad de varianzas
Las varianzas de todos los grupos deben ser iguales. Este supuesto es crtico, y
puede verificarse su cumplimiento a travs de un test de Levene de igualdad de
varianzas.
Si las muestras tienen igual tamao, no se ver afectado el resultado del ANOVA
por la falta de cumplimiento de este supuesto.
- 23 -
Ejercicios
Resolver los siguientes ejercicios con las tcnicas aprendidas.
1. Supongamos que un frmaco que se administra a 3 grupos de personas y se
les realiza cierta medicin del efecto causado:
Resultado de la medicin
Gripe (nivel 1) 5 3 2 5 4 3
Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10 5
Sanos (nivel 3) 2 3 2 1 2 3 2
En este caso los factores que influyen en las observaciones son tres: el que la persona
padezca la gripe, apendicitis, o que est sana.
a. Plantee las hiptesis del problema.
b. Utilice una significacin de 0,05.
c. Escriba una conclusin
Observaciones
Tratamiento 1 -1
-1
Tratamiento 2 -2 -4 -5 -4 -7
Tratamiento 3
-1 -2 -4 -1
Tratamiento 4
ni
- 24 -
Lectores?
Si
529
373
237
1139
Urbana
Rural
Granja
Total
Total
No
121
137
89
347
650
510
326
1486
a) Con =0.05 brindan los datos evidencia suficiente para indicar que las
proporciones de lectores difieren entre los distintos grupos de
comunidades?
b) Encuentre el valor p para la prueba.
5.
Resultado
Con ganancia
Sin ganancia
Total
A
63
37
100
Administrador
B
71
29
100
Total
C
55
45
100
189
111
300
- 25 -
117
529
19
No
124
1147
117
- 26 -