Está en la página 1de 15

1

PRCTICA 13: PRUEBA DE HIPTESIS DE BONDAD DE AJUSTE E


INDEPENDENCIA

En ocasiones ocurre que el encargado de hacer un trabajo estadstico no est seguro de la
distribucin de una determinada variable aleatoria. Para solucionar tales dificultades surgen los
llamados test de Bondad de Ajuste.
Uno de ellos es el denominado contraste chi-cuadrado y que consiste en comparar las
frecuencias observadas en la muestra con las que deberan haberse obtenido en una poblacin
que perteneciese a una distribucin de probabilidad especfica. De all determinamos si la
variable tiene la distribucin postulada (o terica) o si no la tiene. La prueba puede aplicarse
tanto a distribuciones discretas como continuas, aunque previamente el investigador debe
establecer una particin conveniente del espacio muestral en sucesos mutuamente
excluyentes: para el caso de las discretas, esta particin puede darse naturalmente; para las
continuas depende solamente del criterio del investigador.
La prueba entonces, quiere discernir si una poblacin tiene o no una determinada distribucin y
por lo tanto las hiptesis adecuadas son:
H
0
) F
X
= F
0
H
1
) F
X
F
0
donde F
X
es la verdadera distribucin de la variable de inters X, y F
0
es la distribucin
postulada y que est totalmente especificada.
Supongamos, entonces, que establecimos una particin del espacio muestral en k sucesos
mutuamente excluyentes cada uno con probabilidad terica p
i
y por lo tanto

= 1. De all,
se compara la frecuencia esperada si la distribucin postulada fuera cierta en cada intervalo
n
=
k
1 i
i
p

p
i
(que es la probabilidad p
i
multiplicada por el tamao muestral n), con la observada en cada
uno de ellos y que notamos n
i
, por medio del siguiente estadstico:


=
k
1 i
i
2
i i 2
1 k
p n
) p n n (

con las siguientes propiedades:
a) como

= 1 n = = n
=
k
1 i
i
p

=
k
1 i
i
p

=
k
1 i
i
p n
b) como los k sucesos son excluyentes:

= n
=
k
1 i
i
n
Por medio del contrate de razn de verosimilitudes se puede demostrar que la distribucin
asinttica (es decir, cuando n tiende a infinito) del mencionado estadstico es, como se puede
intuir a partir de su notacin, una chi-cuadrado con (k 1) grados de libertad.
Por lo tanto, y como el estadstico compara la frecuencia terica con la observada, se rechaza
H
0
cuando ste es grande y por ello, la regin crtica para un nivel nos queda:
=

=


=
k
1 i
i
2
i i 2
1 k
p n
) p n n (

2
1 , 1 k


Observaciones:

a) Los grados de libertad corresponden a la cantidad de sucesos mutuamente
excluyentes menos uno, dado que la relacin = n implica que slo k 1 eventos
son independientes.

=
k
1 i
i
n
b) Como la distribucin del estadstico es asinttica ello crea una dificultad en cuanto a
qu tamao de muestra es aceptable. En general, se considera que la aproximacin es
buena si las frecuencias esperadas para cada suceso son mayores o iguales a cinco
(np
i
5, para todo i).
c) Si las frecuencias esperadas para algn suceso son menores que 5, se debe agrupar
con algn otro, reducindose en tal caso los grados de libertad: stos son siempre un
grado menos que los sucesos finales considerados.
1

2
d) Si es necesario estimar algn parmetro, entonces el estadstico pierde un grado de
libertad por cada parmetro estimado,
e) La forma del estadstico es coherente con los que pretende medir. En primer lugar
(n
i
n p
i
) evala qu tan lejos estn las observaciones de los valores tericos. Luego,
(n
i
n p
i
)
2
evita que las diferencias en ms y en menos se compensen. Y por ltimo la
divisin entre n p
i
, estandariza el cociente, de tal forma que diferencias en magnitud
tengan siempre la misma distribucin.

EJERCICIO 1 (CANAVOS 10.2)

Sea X = Mes en que ocurre el nacimiento en un hospital
Queremos elegir entre:
H
0
) X Uniforme discreta (1,12)
H
1
) X no se distribuye Uniforme discreta (1,12)

Como la variable es una uniforme discreta y los sucesos posibles son k = 12, entonces cada
p
i
=
12
1
y como el tamao total de nacimientos es n = 1200, entonces n p
i
= 100, para todo i.
El lmite de la regin crtica es, a un nivel = 0,01: = = 24,725.
2
1 , 1 k

2
99 , 0 , 11

El valor del estadstico lo calculamos:


=
k
1 i
i
2
i i 2
1 k
p n
) p n n (
=
100
) 100 95 (
2

+
100
) 100 105 (
2

+
100
) 100 95 (
2

+
100
) 100 105 (
2

+
100
) 100 90 (
2

+
100
) 100 95 (
2

+
100
) 100 105 (
2

+
100
) 100 110 (
2

+
100
) 100 105 (
2

+
100
) 100 100 (
2

+
100
) 100 95 (
2

+
100
) 100 100 (
2

= 4
Por lo tanto como 4 < 24,725, entonces no caemos en la R.C. y por lo tanto no se rechaza H
0
a
ese nivel.

Recordemos que el p-valor es la probabilidad de que el estadstico de prueba tome valores
peores, en el sentido de la regin crtica, que el que tom en la muestra. En este caso:
p-valor = P ( 4) = 1 - 0,03 = 0.97
2
1 k


Observacin: Si el p-valor es mayor que el nivel , entonces no se rechaza H
0
y si es mayor,
entonces se rechaza.

SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 1
x<-c(Ene=95,Feb=105,Mar=95,Abr=105,May=90,Jun=95,
Jul=105,Ago=110,Set=105,Oct=100,Nov=95,Dic=100)

chisq.test(x)

Chi-squared test for given probabilities

data: x
X-squared = 4, df = 11, p-value = 0.97

2

3
EJERCICIO 2 (SEGUNDA REVISIN DE 1998)

1) Sea X = cantidad de goles por partido en el mundial de ftbol de Francia 98

Las hiptesis que nos planteamos son:
H
0
) X tiene distribucin Poisson
H
1
) X no tiene distribucin Poisson

Como no conocemos el parmetro de la distribucin de Poisson debemos estimarlo:

n ( ) = n
i
x
i
x
i
h ( ) h ( )
i
x
i
x
i
x
0 5 0,078125 0
1 10 0,15625 0,15625
2 13 0,203125 0,40625
3 19 0,296875 0,890625
4 11 0,171875 0,6875
5 5 0,078125 0,390625
6 0 0 0
7 1 0,015625 0,109375
64 1 2,640625
Entonces x

= = 2,64.
Por otra parte, como las frecuencias esperadas en la primera y tres ltimas categoras son
menores que 5 debemos reagrupar, para luego calcular sus probabilidades postuladas:
n ( ) = n
i
x
i
x
i
p
i
n p
i

i
2
i i
p n
) p n n (

0 y 1 15 0.2596 16.6168 0.1573
2 13 0.2486 15.9131 0.5333
3 19 0.2189 14.0068 1.7800
4 11 0.1445 9.2467 0.3324
5 y ms 6 0.1284 8.2166 0.5980
64 1 64 3.4010

Como la cantidad de categoras finalmente utilizadas es de 6, y se estima un parmetro
entonces los grados de libertad del estadstico son cuatro. La regin crtica a un nivel del 5%
queda:
= = 9,48773
2
95 , 0 , 4
2
4
>
y como = 3,4010 < = 9,48773, no se rechaza H
2
4

2
95 , 0 , 4

0
al nivel mencionado.

2) Como p-valor = P ( > 3,4010) = 0,5060, es mayor que 0,10.
2
4


SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 2
GOLES<-c(0,1,2,3,4,5,6,7)
GOLES.O<-c(5,10,13,19,11,5,0,1)

n<-sum(GOLES.O)

mu<-sum(GOLES*GOLES.O)/n

GOLES.E<-c(dpois(GOLES[-8], mu),ppois(6,mu, lower.tail=FALSE))*n

chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE)
3

4


chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE ,simulate.p.value = TRUE)

Chi-squared test for given probabilities with simulated p-value (based
on 2000 replicates)

data: GOLES.O
X-squared = 5.2174, df = NA, p-value = 0.6262

#La diferencia entre los valores para p-value (0.6335 y 0.6262) para los datos originales
#y simulados no indican la necesidad de reagrupar.
#Sin embargo, si lo indica la regla (muy conservadora) ne >= 5. Qu hace el R?

GOLES.E>=5
[1] FALSE TRUE TRUE TRUE TRUE FALSE FALSE FALSE

GOLES.O<-c(sum(GOLES.O[1:2]), GOLES.O[3:5], sum(GOLES.O[6:8]))
GOLES.E<-c(ppois(1,mu),dpois(GOLES[3:5], mu),ppois(4,mu, lower.tail=FALSE))*n
GOLES.E>=5
[1] TRUE TRUE TRUE TRUE TRUE

chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE)

Chi-squared test for given probabilities

data: GOLES.O
X-squared = 3.401, df = 4, p-value = 0.4931


EJERCICIO 3

PUNTAJE FRECUENCIAS MARCA FREC. REL.
[ , ) n ( ) = n
'
i
x
'
1 i
x
+ i
x
i
h ( ) h ( )
i
x
i
x
i
x
i
x
2
i
) x x ( h ( )
i
x
[0, 10) 24 5 0,08275862 0,4137931 20,9812354
[10, 15) 49 12,5 0,16896552 2,11206897 11,9859161
[15, 20) 71 17,5 0,24482759 4,28448276 2,86764501
[20, 25) 72 22,5 0,24827586 5,5862069 0,61790356
[25, 30) 37 27,5 0,12758621 3,50862069 5,51997134
[30, 40) 21 35 0,07241379 2,53448276 14,3508521
[40, 50) 16 45 0,05517241 2,48275862 31,9851121
290 1 20,9224138 88,3086356

Sea X = el puntaje de una prueba de un estudiante. Queremos elegir entre las hiptesis:

H
0
) X se distribuye normal
H
1
) X no se distribuye normal

En este caso hay que estimar los parmetros de la normal. Ello lo hacemos en el cuadro de
arriba y en l obtenemos: x = = 20,92 y = s
2

2
= 88,9208. Con estas estimaciones
calculamos las probabilidades de cada intervalo si la distribucin es normal y que denotamos
por p
i
, y los valores esperados n p
i
:
4

5

[ , ) F( ) F( ) p
'
i
x
'
1 i
x
+
'
1 i
x
+
'
i
x
i
n p
i

i
2
i i
p n
) p n n (

[0, 10) 0,1226783 0,01302273 0,1226783 35,5767059 3,76707498
[10, 15) 0,26441684 0,1226783 0,14173854 41,104177 1,51673202
[15, 20) 0,46101677 0,26441684 0,19659994 57,0139812 3,43089045
[20, 25) 0,6678712 0,46101677 0,20685443 59,9877842 2,40537853
[25, 30) 0,83296727 0,6678712 0,16509607 47,8778602 2,4714522
[30, 40) 0,97881098 0,83296727 0,14584371 42,2946767 10,7215208
[40, 50) 1 0,97881098 0,02118902 6,14481485 15,8059562
1 290 40,1190052


Como la cantidad de sucesos (en este caso intervalos) es 7, y se estimaron 2 parmetros los
grados de libertad del estadstico son 4 y por lo tanto el valor crtico es = 13,2767. El
valor que toma el estadstico es, como se ve en el cuadro, = 40,119 > = 13,2767,
con lo que caemos en la R.C. y por lo tanto rechazamos H
2
99 . 0 , 4

2
4

2
99 . 0 , 4

0
al nivel del 1%.


Nota: En el cuadro de arriba se toma como p
1
= F (10) = P ( X 10) en vez de F (10)
F (0) y p
7
= 1 F (40) en vez de F (50) F (40), a efectos de que

= 1, porque la Normal
puede tomar valores entre y +, y es necesario considerar esta discrepancia con la
muestra.
=
k
1 i
i
p

SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 3
Puntaje<-c("-Inf - 10","10 - 15","15 - 20","20 - 25","25 - 30","30 - 40","40 - +Inf")
Marca<-c(5,12.5,17.5,22.5,27.5,35,45)
Frecuencia.O<-c(24,49,71,72,37,21,16)

n<-sum(Frecuencia.O)
mu<-sum(Marca*Frecuencia.O/n)
sigma<-sqrt((1/(n-1))*(sum(Marca^2*Frecuencia.O)-n*mu^2))

x<-c(0,10,15,20,25,30,40,50)
z<-(x-mu)/sigma

Frecuencia.E<-(pnorm(c(z[2:7], +Inf))-pnorm(c(-Inf, z[2:7])))*n
Frecuencia.E>=5
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE
chisq.test(Frecuencia.O, p=Frecuencia.E, rescale.p = TRUE)

Chi-squared test for given probabilities

data: Frecuencia.O
X-squared = 40.0251, df = 6, p-value = 4.504e-07


tabla<-data.frame(Puntaje=Puntaje, Marca=Marca, O=Frecuencia.O, E=Frecuencia.E,
+ dif=(Frecuencia.O-Frecuencia.E)^2/Frecuencia.E)

5

6
tabla

Puntaje Marca O E dif
1 -Inf - 10 5.0 24 35.659895 3.812494
2 10 - 15 12.5 49 41.082459 1.525894
3 15 - 20 17.5 71 56.939179 3.472243
4 20 - 25 22.5 72 59.908510 2.440457
5 25 - 30 27.5 37 47.851161 2.460707
6 30 - 40 35.0 21 42.367070 10.776098
7 40 - +Inf 45.0 16 6.191726 15.537224

sum(tabla$dif)
[1] 40.02512
qchisq(0.99,4)
[1] 13.27670

EJERCICIO 4 (CANAVOS 10.6)

Sea X = nmero de personas que desarrollan alguna enfermedad cardaca
Queremos discernir entre las hiptesis:

H
0
) X tiene distribucin uniforme (en las cuatro categoras)
H
1
) X no tiene distribucin uniforme

a) Como la cantidad de categoras son cuatro y no se estim ningn parmetro los grados de
libertad del estadstico son tres. El valor de ste, con los datos de la muestra, es:

2
3
=
40
) 40 58 (
2

+
40
) 40 54 (
2

+
40
) 40 36 (
2

+
40
) 40 12 (
2

= 33

Como el valor de tablas es = 11,34488 y 33 > 11,34488, entonces se rechaza H
2
99 . 0 , 3

0
y por
lo tanto a un nivel del 1%, existe evidencia estadstica suficiente para afirmar que la variable no
es uniforme.

b) Advertirle al investigador mdico que la distribucin del estadstico es asinttica.

SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 4
x<-c(Agudo=58,Moderado=54,Ocasional=36,Nofuma=12)
chisq.test(x)

Chi-squared test for given probabilities

data: x
X-squared = 33, df = 3, p-value = 3.221e-07

EJERCICIO 5 (EXAMEN DE FEBRERO DE 1999)

1) Sea X = nmero de pacientes que atiende un odontlogo en una semana

1.1) H
0
) X se distribuye uniforme discreta
H
1
) X no se distribuye uniforme discreta

1.2) H
0
) X tiene una distribucin con probabilidades p
1
= p
2
= p
3
= 0,16 y p
4
= p
5
= 0,26
H
1
) X no tiene dicha distribucin
2) En este caso no hay que estimar ningn parmetro y dado que la cantidad de categoras es
k = 5:
6

7


=
k
1 i
i
2
i i 2
1 k
p n
) p n n (

d

2
4


3) La regin crtica, a un nivel del 5%, es:
= = 9,48773
2
95 , 0 , 4
2
4
>

En la tabla siguiente se calcula el valor del estadstico:

DA n
i
p
i
n p
i

i
2
i i
p n
) p n n (

1 10 0,16 9,6 0,01666667
2 9 0,16 9,6 0,0375
3 11 0,16 9,6 0,20416667
4 14 0,26 15,6 0,16410256
5 16 0,26 15,6 0,01025641
60 1 60 0,43269231

Entonces, = 0,43268 < = 9,48773 y por lo tanto no rechazamos H
2
4

2
95 , 0 , 4

0
al 5% de
significacin: el odontlogo no tiene evidencia estadstica suficiente para afirmar que, con los
nuevos horarios, la distribucin de sus pacientes en los das de la semana, haya cambiado.
4) Cometemos un error de tipo II cuando no rechazamos H
0
siendo H
0
falsa. En este caso
sera sostener que la distribucin no cambi, a pesar de la nueva estrategia de atencin del
odontlogo, cuando en realidad s lo hizo.
SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 5
O<-c(10,9,11,14,16)
n<-sum(O)
p<-c(0.16,0.16,0.16,0.26,0.26)
E<-p*n
E>=5
[1] TRUE TRUE TRUE TRUE TRUE
chisq.test(O,E)

Pearson's Chi-squared test

data: O and E
X-squared = 5, df = 4, p-value = 0.2873

Warning message:
In chisq.test(O, E) : Chi-squared approximation may be incorrect
#Por qu aparece un Warning message:?
7

8
EJERCICIO 6 (SEGUNDA REVISIN DE 1996)
X = la demanda total semanal de un producto en miles de Kg.
Para calcular las probabilidades de la muestra presentada en el cuadro, debemos hallar la
funcin de distribucin:
a) si x [ 0, 1) F
X
(x) = dt
2
t
x
0
2

=
6
x
3

b) si x [ 1, 2) F
X
(x) = dt
2
t
1
0
2

+ dt ) 6 t 10
2
t 7
(
x
1
2

=
6
1
+
x
1
2
3
) t 6 t 5
6
t 7
( +

=
6
1
+ x 6 x 5
6
x 7
2
+

3
+
6
7
5 + 6 = x 6 x 5
6
x 7
2
+

3
+
6
14

1) La prueba tiene, entonces, las siguientes hiptesis:
H
0
) X tiene distribucin F
X
H
1
) X no tiene distribucin F
X
Como la cantidad de categoras de la muestra es 4 y no se estima ningn parmetro, los
grados de libertad son 3 y por lo tanto la regin crtica a un nivel del 10% es:
= = 6,25139
2
90 , 0 , 3
2
3
>

En el siguiente cuadro calculamos el valor del estadstico:

[ , ) n
'
i
x
'
1 i
x
+ i
F( ) F( ) p
'
i
x
'
1 i
x
+ i
n p
i

i
2
i i
p n
) p n n (

[ 0; 0,5) 9 0,02083333 0 0,02083333 8,33333333 0,05333333
[0,5; 1) 61 0,16666667 0,02083333 0,14583333 58,3333333 0,12190476
[1; 1,5) 195 0,64583333 0,16666667 0,47916667 191,666667 0,05797101
[1,5; 2) 135 1 0,64583333 0,35416667 141,666667 0,31372549
1 400 0,5469346

Entonces
0,54693 = = 6,25139 y por lo tanto no rechazamos H
2
90 , 0 , 3
2
3
<
0
al 10%.

2) En ambas pruebas la decisin es no rechazar H
0
porque no tengo evidencia estadstica
suficiente para hacerlo. Esto significa, que a dicho nivel, no se puede hallar diferencias
sustanciales, con los datos de la muestra obtenida, entre las distribuciones postuladas y la real.
Lo que sucede en la realidad es que si no se rechazan dos distribuciones distintas, stas no
deberan ser muy diferentes.

SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 6
f<-function(x)
{
ifelse(x<0,1,0)*0+
ifelse(x>=0 & x<1,1,0)*x^2/2+
ifelse(x>=1 & x<=2,1,0)*(-7*x^2/2+10*x-6)+
ifelse(x>2,1,0)*0
}

8

9
> integrate(f,-Inf,Inf)
1 with absolute error < 3.4e-06

p1E<-integrate(f,0, 0.5)$value; p1O<-9
p2E<-integrate(f,0.5, 1)$value; p2O<-61
p3E<-integrate(f,1,1.5)$value; p3O<-195
p4E<-integrate(f,1.5,2)$value; p4O<-135

datos<-data.frame(E=400*c(p1E, p2E, p3E, p4E), O=c(p1O, p2O, p3O, p4O))

chisq.test(datos$O, p=datos$E, rescale=TRUE)

Chi-squared test for given probabilities

data: datos$O
X-squared = 0.5469, df = 3, p-value = 0.9085

EJERCICIO 7 (CANAVOS 10.14)

En este ejercicio aplicaremos el Test de Ajuste de Kolmogorov-Smirnoff, el cual se dise
especficamente para determinar si una variable aleatoria continua tiene o no determinada
distribucin.
A tales efectos, se utiliza la funcin de distribucin emprica (vista en la Prctica 9, Ejercicio
12):
{ }
=

=
n
1 i
x X
*
n
i
1
n
1
) x ( F
la cual es, como vimos anteriormente, la funcin que vale 0, hasta el mnimo dato de la
muestra; vale
n
1
entre el mnimo y el segundo ms chico;
n
2
entre el segundo y el tercero ms
chico; ... y 1, del ms grande en adelante.
Si llamamos X
(1)
al dato ms chico de la muestra, X
(2)
al segundo ms chico, ..., y X
(n)
al ms
grande, podemos graficar la funcin de la siguiente manera:











1




n
2


n
1


X
(1)
X
(2)
X
( n)

9

10
En el Ejercicio 12 de la mencionada prctica 9, demostramos que es un estadstico
consistente para estimar F
) x ( F
*
n
X
(x) = P (X x). Kolmogorov y Smirnoff demostraron que:

0 ) x ( F ) x ( F sup
n
X
*
n
x


y que la distribucin de cada uno los siguientes estadsticos no depende de la distribucin de
X:
) ) x ( F ) x ( F ( sup D
X
*
n
x
n
=
+
, y D ) ) x ( F ) x ( F ( sup D
*
n X
x
n
=

n
= ) x ( F ) x ( F sup
X
*
n
x

a condicin de que la distribucin de X sea continua.

Ntese que decir que la distribucin de los estadsticos antedichos no depende de X, indica
que esa distribucin es fija y que se puede tabular (de hecho estn tabuladas en cualquier libro
de texto de Estadstica).

La demostracin del Teorema, en general, no aparece en los libros de texto y est fuera del
alcance de este curso: simplemente se quiere puntualizar que ella est basada en la conocida
propiedad de que la variable aleatoria Y = F
X
(X) U [ 0, 1] ( F
X
(X) es aplicar F
X
a la variable
aleatoria X) a condicin de que X sea continua.

Estamos en condiciones, entonces, para contrastar las hiptesis:
H
0
) F
X
(x) = F
0
(x)
H
1
) F
X
(x) F
0
(x)

Si F
0
es la verdadera distribucin de X, entonces se debe cumplir que ) x ( F ) x ( F sup
0
*
n
x
=
0 ) x ( F ) x ( F sup
n
X
*
n
x
, se rechazar H
0
si D
n
K . Por lo tanto, para que el nivel de
significacin sea , la regin crtica debe ser: = Muestras: D
n
D
n, 1


Tres observaciones finales:
a) como el tamao de muestra es n, finito, entonces: ) x ( F ) x ( F sup
0
*
n
x
= ) x ( F ) x ( F mx
0
*
n
x

b) ) x ( F ) x ( F mx
0
*
n
x
=
n i 1
mx

) x ( F ) x ( F mx
0
*
n
) X X [ x
) i ( ) 1 i (


+
(para encontrar el mximo se puede
tomar el mximo en cada intervalo, y de esos n mximos tomar el mximo)
c) En cada intervalo [ X
( i)
X
( i+1)
), la funcin es constante, y como F ) x ( F
*
n 0
(x) es creciente
(por ser X absolutamente continua), el ) x ( F ) x ( F mx
0
*
n
) X X [ x
) i ( ) 1 i (


+
se alcanza slo en los
extremos.

Pasemos a la resolucin del ejercicio:
10

11

x F
0
(x) F
n
*
(x) F
n
*
(x- )F
0
(x) F
n
*
(x) F
0
(x)
19 0.033473 0.04 -0.033473 0.006527
20 0.0487404 0.08 -0.0087404 0.0312596
21 0.06833493 0.12 0.01166507 0.05166507
22 0.0926039 0.16 0.0273961 0.0673961
23 0.12170516 0.24 0.03829484 0.11829484
24 0.15558433 0.28 0.08441567 0.12441567
25 0.19397098 0.32 0.08602902 0.12602902
26 0.23639308 0.4 0.08360692 0.16360692
27 0.28220716 0.48 0.11779284 0.19779284
28 0.33064005 0.52 0.14935995 0.18935995
29 0.38083679 0.56 0.13916321 0.17916321
30 0.43191036 0.6 0.12808964 0.16808964
31 0.4829887 0.68 0.1170113 0.1970113
32 0.5332551 0.72 0.1467449 0.1867449
33 0.5819805 0.76 0.1380195 0.1780195
34 0.62854634 0.8 0.13145366 0.17145366
35 0.67245761 0.84 0.12754239 0.16754239
38 0.78520616 0.88 0.05479384 0.09479384
41 0.86772621 0.92 0.01227379 0.05227379
45 0.93658907 0.96 -0.01658907 0.02341093
50 0.97770698 1 -0.01770698 0.02229302
0.14935995 0.19779284

Notacin: Los intervalos [ X
( i)
X
( i+1)
) se definen naturalmente y son, a va de ejemplo:
(, 19), [19,20), ... . [45, 50), [50, +). La notacin F
0
(x) corresponde a evaluar F
0
en el
extremo izquierdo de cada intervalo.

Si hallamos el mximo del valor absoluto de las columnas F ) x ( F
*
n 0
(x) y F ) x ( F
*
n 0
(x),
obtenemos que D
n
= 0.19779284 < 0.27 = D
n, 1
, con lo cual no tenemos evidencia estadstica
necesaria para rechazar H
0
al nivel del 5%.

SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 7
Edades<-c(24, 19, 20, 22, 50, 23, 23, 21, 25, 27, 45, 27, 26, 26, 35,
29, 28, 30, 31, 32, 31, 33, 34, 38, 41)
Edades<-Edades[order(Edades)]

ks.test(Edades, pgamma, 16, 0.5,
alternative = c("two.sided"))

One-sample Kolmogorov-Smirnov test

data: Edades
D = 0.1978, p-value = 0.2820
alternative hypothesis: two-sided

Warning message:
In ks.test(Edades, pgamma, 16, 0.5, alternative = c("two.sided")) :
cannot compute correct p-values with ties

#Investigar por que da un mensaje de alerta

11

12
EJERCICIO 8

En este ejercicio y en los posteriores de esta Prctica veremos las llamadas Pruebas de
Hiptesis de Independencia, las cuales aplicaremos a dos rasgos distintos de una misma
poblacin (para ms aspectos el razonamiento es relativamente similar). La idea consiste en
comparar, de manera similar al Test de Ajuste Chi-cuadrado, las frecuencias realmente
observadas en la muestra, para cada suceso, con las que tericamente deberan haberse
observado en el caso de ser cierta las hiptesis nula de independencia.

Las hiptesis que se plantean entonces, son:
H
0
) X y Y son independientes
H
1
) X y Y no son independientes

Como la cantidad de categoras que se toman es un conjunto finito, si llamamos p
i.
a la
probabilidad marginal del i-simo suceso de la variable X y p.j al j-simo suceso de la variable

Y, las hiptesis anteriores son equivalentes a las siguientes:
H
0
) = p
j i
p
i.
x p.j, para todo i = 1, 2, , r y todo j = 1, 2, ..., s (siendo r y s la cantidad de
posibles sucesos de las variables X y Y respectivamente)
H
1
) p
j i
p
i.
x p.j, para algn i y j.
Si pueden especificarse las probabilidades marginales p
i.
y p.j, entonces bajo la hiptesis nula,
la estadstica:
j . . i
2
. i ij
s
1 j
r
1 i
2
1 rs
p p n
) j . p p n N (
=

= =


tiene una distribucin asinttica chi-cuadrado con (r s 1) grados de libertad
Sin embargo, la mayora de las veces pueden no conocerse los valores de las probabilidades
marginales, por lo que se estiman en base a la muestra. Para ello se usan los estimadores de
mxima verosimilitud de p
i.
y p.j que son respectivamente:
n
n
p

. i
. i
= y
n
n
p

j .
j .
=
donde n
i.
y n
.j
son las frecuencias absolutas del i-simo suceso de la variable X y del j-simo
suceso de la variable Y.
Afortunadamente, la estadstica chi-cuadrado permanece como la apropiada para la prueba,
siempre que se empleen los estimadores antedichos y se le reste un grado de libertad por cada
parmetro estimado. Entonces como y , existen (r 1) parmetros de la
variable X y (s 1) parmetros de la variable Y a estimar y por lo tanto el nmero de grados de
libertad ser (r s 1 (r 1) (s 1) = (r 1) (s 1).
1 p
r
1 i
. i
=

=
1 p
s
1 i
j .
=

=
Al sustituir las probabilidades por los estimadores nos queda la estadstica:
n
n n
)
n
n n
N (
j . . i
2
j . . i
ij
s
1 j
r
1 i
2
) 1 s ( ) 1 r (

=

= =


Si la hiptesis nula es cierta N
ij
est prximo a
n
n n
j . . i
y el estadstico toma valores pequeos, y
por ello la regin crtica a un nivel nos queda:
=
n
n n
)
n
n n
N (
j . . i
2
j . . i
ij
s
1 j
r
1 i
2
) 1 s ( ) 1 r (

=

= =


2
1 , ) 1 s ( ) 1 r (


Las hiptesis que nos planteamos en este ejercicio son:
H
0
) X y Y son independientes
H
1
) X y Y no son indepedientes
12

13

donde X = la categora de la poblacin econmicamente activa (P:E:A.) y Y = la edad de la
P:E:A:


CUADRO DE VALORES OBSERVADOS
< 25 25 - 60 > 60
O.I.M. 50 220 40 310
O.C. 60 150 20 230
O.S 50 250 30 330
DESOC. 40 80 10 130
200 700 100 1000

Luego de calcular las probabilidades estimadas mediante las frmulas antedichas, podemos
obtener un cuadro de valores esperados (multiplicando aquellas por el tamao de la muestra):

CUADRO DE VALORES ESTIMADOS
< 25 25 - 60 > 60
O.I.M. 62 217 31
O.C. 46 161 23
O.S 66 231 33
DESOC. 26 91 13

Como el valor del estadstico es = 25,6554 tiene probabilidad P( >=25,6554) =
0,13967 = , entonces rechazamos H
2
6

2
6

2
97 , 0 , 6

0
a un nivel del 3%: tenemos evidencia estadstica
suficiente para rechazar la hiptesis de independencia entre ambas variables.

SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 8
O<-matrix(data=c(50,220,40,60,150,20,50,250,30,40,80,10),
nrow=4, ncol=3, byrow = TRUE)

chisq.test(O, rescale.p = TRUE)

Pearson's Chi-squared test

data: O
X-squared = 25.6554, df = 6, p-value = 0.0002581


EJERCICIO 9 (SEGUNDA REVISIN DE 1997)

1) Como en el cuadro de valores observados las tres primeras columnas dan 103, 93 y 94
respectivamente, lo mismo debe suceder con las de los valores esperados y por lo tanto:
= 103 (24,7 + 15,4 + 18,8 + 17,9) = 26,2
= 93 (22,3 + 13,9 + 16,9 + 16,2) = 23,7
= 94 (22,6 + 14 + 17,1 + 16,3) = 24

2) H
0
) Hay independencia entre la marca de yogur comprada ms frecuentemente
H
1
) No la hay

O equivalentemente, definiendo X = la marca de yogur ms frecuentemente comprada y Y = la
caracterstica principal del yogur y adems p
i.
la probabilidad de que X sea la marca i-sima y
p
.j
la probabilidad de que Y sea la caracterstica j-sima:
13

14
H
0
) = p
j i
p
i.
x p.j, para todo i = 1, 2, , 5 y todo j = 1, 2, ..., 5
H
1
) p
j i
p
i.
x p.j, para algn i y j

3) Como no hay que estimar ningn parmetro el estadstico tiene 24 grados de libertad y
como = 40,45 > 36,415 = , entonces rechazamos H
2
24

2
95 , 0 , 24

0
a un nivel del 5%: tenemos
evidencia estadstica suficiente para rechazar la hiptesis de independencia entre ambas
variables.

4) Recordamos que el p-valor es la probabilidad de que suceda lo que sucedi o algo peor en
el sentido de la regin crtica, o sea:
p-valor = P ( > 40,45)
2
24

Pero como:
P ( > 40,45) < P ( > 36,415) = p <
2
24

2
24


SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 9
O<-matrix(data=c(30,30,20,15,28,
28,28,18,16,26,
15,10,15,23,9,
14,13,16,27,18,
16,12,25,24,7),
nrow=5, ncol=5, byrow = TRUE)

chisq.test(O, rescale.p = TRUE)

Pearson's Chi-squared test

data: O
X-squared = 40.4543, df = 16, p-value = 0.000668.

EJERCICIO 10

1. H
0
) Los atributos son independientes
H
1
) Los atributos no son independientes

= 0,01

RC = {Muestras tales que } k
q m
>

2
) 1 ).( 1 (


Hay que hallar el cuadro de valores esperados para calcular el estadstico chi-cuadrado

CUADRO DE VALORES ESPERADOS
SI N0 TOTAL
CNCER 40 360 400
OTRA 960 8.640 9.600
TOTAL 1.000 9.000 10.000

El valor del estadstico en la muestra es 740,74. El estadstico chi-cuadrado tiene, en
este caso, 1 grado de libertad. El valor de tablas que acumula 0,99 es 6,63 y, por tanto,
el valor de la muestra cae en la regin tpica. Conclusin: las variables no son indepen-
dientes. Es fcil advertir que la asociacin se da entre las categoras ser fumador y
morir de cncer de pulmn.
14

15
2. P(Morir de cncer de pulmn / Ser fumador) = 200 / 1.000 = 0,20
P(Morir de cncer de pulmn / No ser fumador) = 200 / 9.000 = 0,022

Observacin: en este ejercicio resulta que es 9 veces ms probable morir de cncer de
pulmn si se es fumador que si no se es. Los estudios realizados en la dcada del 50
(Vejentud: humano tesoro Tlice) en EEUU mostraban que este coeficiente llegaba
a 19.

SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R:

#Ejer 10
O<-matrix(data=c(200,200,800,8800),
nrow=2, ncol=2, byrow = TRUE)

chisq.test(O, rescale.p = TRUE)

Pearson's Chi-squared test with Yates' continuity correction

#Quin es Yates?

data: O
X-squared = 736.1183, df = 1, p-value < 2.2e-16.

EJERCICIO 11 (CANAVOS 10.22)

Sea X = la marca de preferencia de un consumidor y Y = la regin geogrfica en la que habita.
Como en ejercicios anteriores, queremos probar:
H
0
) X y Y son independientes
H
1
) X y Y no son independientes

Elaboramos el cuadro:

CUADRO DE VALORES ESPERADOS ESTIMADOS
REGIN 1 REGIN 2 REGIN 3
MARCA A 39 48,75 29,25 117
MARCA B 52,33333333 65,41666667 39,25 157
MARCA C 68,66666667 85,83333333 51,5 206
160 200 120 480


El estadstico chi-cuadrado, en este caso, tiene cuatro grados y libertad y como dada la
muestra = 3,76754 < = 9,48773, no rechazamos H
2
4

2
95 , 0 , 4

0
, es decir que no hay evidencia
necesaria suficiente para rechazar la hiptesis de independencia entre ambas variables.

En R:

#Ejer 11
O<-matrix(data=c(40,52,25,
52,70,35,
68,78,60),
nrow=3, ncol=3, byrow = TRUE)

chisq.test(O, rescale.p = TRUE)

Pearson's Chi-squared test

data: O
X-squared = 3.7675, df = 4, p-value = 0.4384

15

También podría gustarte