Está en la página 1de 32

1

Pruebas de Hipótesis con R


Commander
P rof esor : René Iral Palomino
Of icina : 43 − 320
Correo : riral@unal.edu.co

Pruebas de Normalidad para muestras


aleatorias
En el análisis de un conjunto de datos, es crucial conocer la distribución
de probabilidad de la cual provienen. Esta caracterı́stica es importante en
el desarrollo, no solo de las pruebas de hipótesis, sino del cálculo de otras
medidas de interés.
En particular, el supuesto más usado en el planteamiento de pruebas de
hipótesis se refiere a determinar si dicho conjunto de datos continuos provie-
nen de una distribución normal. Existe un número importante de pruebas
reportadas en la literatura propuestas para probar si unos datos se compor-
tan normalmente o no.

Entre las pruebas más usadas están: Shapiro-Wilks, Kolmogorov-Smirnov,


KS-Lilliefors, Cramer Von Misses, Jarque-Bera, D’Agostino’s K-squared test,
AndersonDarling, Pearson’s chi-squared, ShapiroFrancia, entre otros.
Se emplearan para efectos de este documento el test de Shapiro-Wilks y el
Test KS-Lilliefor. El primero funciona bien en tamaños de muestra no muy
grandes. El segundo requiere de muestras grandes para funcionar mejor.

Sea X 1 , . . . , X n una m.a. de una población con media µ y varianza σ 2 . Se


desea probar el juego de hipótesis:
H0 : La muestra proviene de una N (µ, σ 2 )
vs
Ha : La muestra no proviene de una Normal .
2

Shapiro-Wilks. Este test fué propuesto por Samuel Sanford Shapiro


y Martin Wilk y publicado en 1965. Sea X(1) , . . . , X(n) , la muestra
ordenada de menor a mayor. Estas nuevas variables se conocen como
Estadı́sticos de Orden.
El estadı́stico de prueba es:
n 2
P
ai X(i)
i=1
W = Pn ,
2
(Xi − x̄ )
i=1

donde a1 , a2 , . . . , an son tales que


mT V −1
(a1 , a2 , . . . , an ) = 1 .
(mT V −1 V −1 m) 2
m = (m1 , . . . , mn )T es el vector de valores esperados de los estadı́sticos
de orden de una muestra aleatoria que proviene de una distribución
normal estándar y V es la respectiva matriz de covarianzas de dichos
estadı́sticos de orden. Se rechaza la hipótesis nula de Normalidad si W
es inferior a un valor crı́tico de la distribución empı́rica de W o si el
Valor p es pequeño.
Kolmogorov-Smirnov o prueba KS. Este test fué sugerido por Andréi
Nikoláyevich Kolmogórov en 1933 y por Stanislav Konstantı́novich Smir-
nov 1939. Es un test no-paramétrico para probar la igualdad de dos
distribuciones continuas unidimensionales, el cual puede ser usado para
comparar una muestra aleatoria con una distribución de probabilidad
de referencia. Este estadı́stico calcula la distancia entre la distribución
emprı́rica de una muestra y la distribución acumulada de una distribu-
ción de referencia.

Dada una muestra aleatoria X 1 , . . . , X n , la Distribución Empı́rica de


la muestra se define como:
n
1 X
Fn (x) = I[−∞, x] (Xi ) ,
n i=1
donde 
0 ; Xi > x
I[−∞, x] =
1 ; Xi ≤ x
3

Bajo la hipótesis nula de que la distribución acumulada de la muestra


es F0 (x), el estadı́stico de prueba es:
Dn = Supx | Fn (x) − F0 (x) | .
Para determinar la región de rechazo del test, se usan los valores crı́ticos
de la distribución asintótica de Dn . Para un α dado la hipótesis nula
se rechaza si Dn > √kαn , donde kα se encuentra de la ecuación

P (K ≤ kα ) = 1 − α .
La siguiente tabla muestra algunos valores crı́ticos para el estadı́stico
de Kolmogorov-Smirnov:

Fig. 1: Valores Crı́ticos prueba KS

En el caso de una prueba de normalidad, Lilliefors propuso una modifi-


cación a la Prueba KS cuando los parámetros de la distribución normal
son desconocidos y deben ser estimados previamente. La tabla con los
cuantiles corregidos se muestra en la figura 2.
4

Fig. 2: Valores Crı́ticos prueba KS-Lilliefors

Usando el paquete R se tiene acceso a estas dos pruebas. Los comandos


a ser usados son:
Para la prueba de Shapiro-Wilks: ((shapiro.test(datos)))
Para la prueba KS-Lilliefors: ((lillie.test(datos)))

Usando R-Commander se tiene acceso a la Prueba Shapiro-Wilks a


traves del menú:
((Estadı́sticos - Resúmenes - Test de normalidad de Shapiro-Wilk)):

Fig. 3: Test Shapiro-Wilk en R Commander


5

Ejemplo 1
Se tiene información sobre un grupo de 200 estudiantes de cierta uni-
versidad. A cada sujeto se le indagó por 10 varibles de interés: GE-
NERO(Hombre o Mujer), ESTATURA(en cms), MASA(en Kgr), HO-
RAS(dedicadas semanalmente a estudiar fuera de clases), EDAD(en
años), TIEMPO(requerido para llegar de su residencia a la Universidad
en min), PAPA(del semestre anterior), VMATRI(valor de matrı́cula en
miles de pesos), ESTRATO(de la residencia donde habita) y TRAB(SI
o NO). UN análisis descriptivo de las variables continuas se muestra a
contiación.

> summary(datos[,c(2,3,5,6,7,8)])

ESTATURA MASA EDAD


Min. :143.4 Min. :41.10 Min. :16.00
1st Qu.:161.7 1st Qu.:60.27 1st Qu.:19.20
Median :167.8 Median :67.35 Median :21.25
Mean :168.3 Mean :65.62 Mean :21.34
3rd Qu.:174.4 3rd Qu.:71.90 3rd Qu.:23.02
Max. :196.9 Max. :87.40 Max. :30.60

TIEMPO PAPA VMATRI


Min. : 2.200 Min. :3.000 Min. : 54.3
1st Qu.: 9.825 1st Qu.:3.600 1st Qu.: 461.3
Median :20.600 Median :3.700 Median :1074.5
Mean :27.537 Mean :3.763 Mean :1144.0
3rd Qu.:38.600 3rd Qu.:4.000 3rd Qu.:1638.2
Max. :97.400 Max. :4.500 Max. :3644.7

Los Gráficos de estas mismas variables se muestran en la figura 4.

De la figura 4 se puede levemente evidenciar que las variables Estatu-


ra, Masa y Papa tienen formas aproximadamente simétricas y podrı́an
provenir de distribuciones normales. Mientras de las demás tienen for-
mas poco simétricas.
6

Fig. 4: Histogramas de variables Continuas

Suponga que se desea probar si las estaturas de los estudiantes se com-


portan aproximadamente normales. Las hipótesis a probar son:
H0 : Las Estaturas se distribuyen Normalmente vs
Ha : Las Estaturas no se distribuyen Normalmente.
Usando el Test de Shapiro-Wilks se tiene:

Fig. 5: Resultado prueba Shapiro-Wilk para Estatura


7

Shapiro-Wilk normality test

data: ESTATURA
W = 0.9922, p-value = 0.36

El Valor p indica que no se puede rechazar H0 y por lo tanto la evidencia


muestral es acorde con que las estaturas se distribuyen normalmente.
Usando el Test de KS-Lilliefors:

> lillie.test(ESTATURA)

Lilliefors (Kolmogorov-Smirnov) normality test

data: ESTATURA
D = 0.042, p-value = 0.5266

La conclusión es la misma. Ambas pruebas permiten concluir que las


estaturas provienen de una distribución normal.

Para la variable tiempo:


H0 : Los Tiempos se distribuyen Normalmente vs
Ha : Los Tiempos no se distribuyen Normalmente.
Usando Shapiro-Wilks:

Fig. 6: Resultado prueba Shapiro-Wilk para Tiempo

> with(datos, shapiro.test(TIEMPO))

Shapiro-Wilk normality test

data: TIEMPO
W = 0.8736, p-value = 7.053e-12
8

Usando KS-Lilliefors:

> lillie.test(TIEMPO)

Lilliefors (Kolmogorov-Smirnov) normality test

data: TIEMPO
D = 0.1446, p-value = 5.753e-11

Ambos valores p son extremadamente pequeños, lo que indica que la


hipótesis nula se rechazará con mucha seguridad (el error es casi nulo).
Esto permite concluir que los tiempos de desplazamiento NO se distri-
buyen normalmente.

Para la variable EDAD:

> with(datos, shapiro.test(EDAD))

Shapiro-Wilk normality test

data: EDAD
W = 0.9688, p-value = 0.0002023

En este caso se rechaza la hipótesis nula de que las Edades se distri-


buyen Normalmente y se concluye que las Edades NO se distribuyen
Normalmente.

Debido a que existen muchos Test para probar Normalidad, una alter-
nativa es construyendo un gráfico especial conocido como QQplot. Este
grafica los cuantiles muestrales de los datos versus los cuantiles teóricos
de una distribución Normal. Si en efecto los datos prvienen de una dis-
tribución Normal, se debe evidenciun gráfico muy lineal, posiblemente
no en los extremos. Si el gráfico se aleja mucho de dicha lı́nea, es evi-
dencia de No normalidad. Para la variable Edad, en R-Commaner los
pasos se muestran en la figura 7. El QQplot se muestra en la figura 8.
9

Fig. 7: Pasos para obtener el QQplot de la Edad

Fig. 8: QQplot para la variable Edad


10

Para efectos de mantener una notación estándar en todo el documento,


se supone que se tienen una muestra aleatoria X1 , X2 , . . . , Xn de una
2
población con media µX y varianza σX .

Pruebas de Hipótesis para la media de una


Población Normal
Para un valor praticular de µX , µ0 , se plantean tres tipos de hipótesis:

 µX < µ0
H0 : µX = µ0 vs Ha : µX > µ0 .
µX 6= µ0

El estadı́stico de prueba dependerá de si se conoce la varianza pobla-


cional o no.
2
a) σX es conocida. En este caso el estadı́stico de prueba es:
X̄ − µ0
ZC = σX ∼ N (0, 1) .

n

La región de rechazo y los respectivos valores p se muestran a


continuación:
 
 ZC | ZC < − zα  P (Z < ZC )
R.C. = ZC | ZC > z α ; Vp= P (Z > ZC )
ZC | |ZC | > z α2 2 P (Z > |ZC |)
 

2
b) σX es desconocida. En este caso el estadı́stico de prueba es:
X̄ − µ0
TC = SX
∼ t(n − 1) .

n

La región de rechazo y los respectivos valores p se muestran a


continuación:
 
 TC | TC < − tα (n − 1)  P (t(n − 1) < TC )
R.C. = TC | TC > tα ((n − 1) ; Vp= P (t(n − 1) > TC ) .
TC | |TC | > t 2 (n − 1) 2 P (t(n − 1) > |TC |)
 α

11

Ejemplo 2
Considere los datos del ejemplo 1. Se desea establecer si la estatura
promedio de los estudiantes es superior a 168 cms. Si X representa
la estatura de un estudiante de dicha Universidad, sedesea probar si
µX > 168. Previamente se probó que las Estaturas se distribuyen Nor-
malmente. Con esto en mente las hipótesis a probar son:

H0 : µX = 168 vs Ha : µX > 168 .

El estadı́stico de prueba es:

X̄ − 168
TC = SX
∼ t(n − 1) .

n

De la muestra se obtienen los siguientes resultados:

n = 200 , X̄ = 168.3 , SX = 10.212 .

TC = 0.407 y V p = P (t(199) > 0.407) = 0.342 . Usando R-Commander:

Fig. 9: Prueba T con RC ommander

Fig. 10: Especificación de H0 y Ha


12

Fig. 11: Valor p de la prueba

El resultado mostrado en la figura 11 indica que no hay suficiente evi-


dencia para afirmar que la estatura media es superior a 168 cms, por
lo tanto se asume que la estatura media de los estudiantes es inferior o
igual a 168 (Esto se concluye porque el valor p es 0.342, es decir, el error
que se comete al rechazar H0 con la información recopilada asumiendo
que fuera cierta es muy grande y no debe rechazarse.

Pruebas de Hipótesis para la media de una


Población No-Normal
Para un valor praticular de µX , µ0 , se plantean tres tipos de hipótesis:

 µX < µ0
H0 : µX = µ0 vs Ha : µX > µ0 .
µX 6= µ0

El estadı́stico de prueba es:


2
a) Si σX es conocida

X̄ − µ0
ZC = σX aprox N (0, 1) .

n

2
b) Si σX es desconocida

X̄ − µ0
ZC = SX
aprox N (0, 1) .

n
13

región de rechazo y Valor p:


 
 ZC | ZC < − zα P (Z < ZC )

R.C. = ZC | ZC > zα ; Vp= P (Z > ZC )
ZC | |ZC | > z α2 2 P (Z > |ZC |)
 

Ejemplo 3
Con los datos de los estudiantes, se tiene la creencia de que el tiempo
medio requerido para llegar a la universidad es menor a 20 min. Primero
es necesario determinar si la muestra proviene de una población normal.

H0 : Los tiempos de desplazamiento son normales


vs
Ha : Los tiempos de desplazamiento NO son normales
Usando el test de Shapiro-Wilks se tiene:

Fig. 12: Prueba de Normalidad para Tiempos

El Valor p registrado en esta prueba indica que se debe rechazar H0 y


concluir que los tiempos de desplazamientos no son normales. Sea µX
el tiempo medio requerido para ir de casa o del trabajo a la universidad
2
y sea σX la varianza de dichos tiempos. Se desea probar las hipótesis:

H0 : µX = 20 Ha : µX < 20 .
14

Estadı́stico de prueba:
X̄ − 20
ZC = SX
aprox N (0, 1) .

n

Las estadı́sticas descriptivas básicas para esta variable:

Var Tiempo
mean sd n
26.45714 20.85432 70

Con estos datos se tiene que:


ZC = 2.591 V p = P (Z < 2.591) = 0.9952 .
Como el Valor P es tan grande, no se puede rechazar H0 , es decir, según
los datos registrados, el tiempo medio de desplazamiento es mayor o
igual a 20 min.

Ejemplo 4
Se desea establecer si la Masa propedio de los estudiantes de la univer-
sidad es superior a 63 kgr. Las hipótesis a probar son:
H0 : µX = 63 vs Ha : µX > 63 .
Para determinar el estadı́stico de prueba, es necesario establecer si las
masas se comportan normalmente o no. En este caso se desean probar
las hipótesis:
H0 : Las masas tienen una distribución normal
vs
H0 : Las masas NO tienen una distribución normal
Usando el Test Shapiro-Wilks

> with(datos, shapiro.test(MASA))

Shapiro-Wilk normality test

data: MASA
W = 0.982, p-value = 0.01159
15

El Valor P de esta prueba es pequeño, por lo cual se puede rechazar


H0 y concluir que las Masas NO se distribuyen normalmente. Asi las
cosas, el estadı́stico de prueba es:

X̄ − 63
ZC = aprox N (0, 1) .
√SX
200

Los resultados muestrales son:

n = 200 , X̄ = 65.619 , SX = 8.897 .

ZC = 4.163 y V p = P (Z > 4.163) = 0.0000157


Dado que el Valor P es extremadamente pequeño, puede rechazarse H0
con mucha seguridad y concluir que, según la información recolectada,
la masa media de los estudiantes supera los 63 Kgr.

Pruebas de Hipótesis para la diferencias


de medias de poblaciones normales
2
Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que Xi ∼ N (µX , σX ) y sea
2
Y1 , Y2 , . . . , Ym otra muestra aleatoria tal que Yj ∼ N (µY , σY ), ambas
muestras aleatorias independientes entre si. El interés en este caso es
comparar las medias de ambas distribuciones. Una manera práctica de
hacerlo es considerando la diferencia µX −µY . Sea δ0 un valor conocido.
Las hipótesis a probar respecto a la diferencia µX − µY son:

 µX − µY < δ0
H0 : µX − µY = δ0 vs Ha : µX − µY > δ0 .
µX − µY 6= δ0

El estadı́stico de prueba dependerá de como son las varianzas pobla-


cionales.
2
1. σX y σY2 son conocidas. En este caso el estadı́stico de prueba es:

X̄ − Ȳ − δ0
ZC = q 2 2
∼ N (0, 1) .
σX σX
n
+ m
16

Región de rechazo y Valor p:


 
 ZC | ZC < − zα  P (Z < ZC )
R.C. = ZC | ZC > zα ; Vp= P (Z > ZC )
ZC | |ZC | > z α2 2 P (Z > |ZC |)
 

2
2. σX y σY2 son desconocidas. En este caso la obtención del estadı́stico
de prueba dependerá de la relación entre las varianzas poblaciona-
les de ambas muestras. Una manera de establecer la relación entre
las varianzas de dos poblaciones es a través de un procedimiento
de Prueba de Hipótesis.

Pruebas de Hipótesis para Cociente de Varianzas

Bajo los supuestos antes descritos, se desean probar las hipótesis:


 2
 σX < λ0

σY2



2 2

σ  σX
H0 : X = λ 0 vs H a : > λ0 ,
σY2 
 σY2
σ2


 X 6= λ0


σY2
donde λ0 es un valor conocido. El estadı́stico de prueba es:
2
1 SX
FC = 2
∼ f (n − 1, m − 1) .
λ0 SX
Región Crı́tica
 1

 FC | FC < fα (m−1,n−1)
FC | FC > fα (n − 1, m − 1) .
1
 FC | FC < f α (m−1,n−1)
 o FC > f 2 (n − 1, m − 1)
α
2

El caso más usado se tiene cuando λ0 = 1, que corresponde a pro-


σ2 2
bar si σX2 = 1. Si se rechaza H0 se concluye que σX 6= σY2 , en caso
Y
2
contrario que σX = σY2 .

Superado este paso, se consideran dos casos para el estadı́stico de


prueba para la hipótesis de diferencia de medias.
17

2
a) σX = σY2 . En este caso el estadı́stico de prueba es:
2
X̄ − Ȳ − δ0 (n − 1)SX + (m − 1)SY2
TC = q ∼ t(n+m−2) ; Sp2 = .
Sp n1 + m1 n+m−2

Región Crı́tica y Valor p:


 
 TC | TC < −tα (n + m − 2)  P (t(n + m − 2) < TC )
TC | TC > tα (n + m − 2) ; P (t(n + m − 2) > TC ) .
TC | |TC | > t α2 (n + m − 2) 2 P (t(n + m − 2) > |TC |)
 

2
b) σX 6= σY2 . En este caso el estadı́stico de prueba es:
 2 2
SX SY2
X̄ − Ȳ − δ0 n
+ m
TC = q 2 2
∼ t(ν) ; ν =  2 2  2 2 − 2 .
SX SX S S
X Y
n
+ m n m

n+1
+ m+1
La región de rechazo y el cálculo del Valor p están dados por:
 
 TC | TC < −tα (ν)  P (t(ν) < TC )
TC | TC > tα (ν) ; P (t(ν) > TC ) .
TC | |TC | > t 2 (ν) 2 P (t(ν) > |TC |)
 α

Ejemplo 5
Retomando la base de datos de los estudiantes de la universidad, se
tiene la creencia de que la estatura media en los hombres es superior
a la estatura media en la mujeres. Primero se verifica si las Estaturas
se distribuyen Normalmente discriminando por género. Para lograrlo
se deben separar las muestras por Género. Usando R se utilizan los
comandos:

> est_muj <- Datos[Datos[,1]=="MUJER",]


> est_hom <- Datos[Datos[,1]=="HOMBRE",]

Luego se prueba si ambas muestras provienen de poblaciones norma-


les. En la figura 13 se ilustra el uso de la Prueba Shapiro-Wilks en
R-Commander.

Con un procedimiento similar se realiza la prueba para las estaturas de


las mujeres. Los resultados se muestran a continuación:
18

> with(est_hom, shapiro.test(ESTATURA))

Prueba de Normalidad para Estaturas de los Hombres


Shapiro-Wilk normality test

data: ESTATURA
W = 0.9918, p-value = 0.9926

> with(est_muj, shapiro.test(ESTATURA))

Prueba de Normalidad para Estaturas de las Mujeress


Shapiro-Wilk normality test

data: ESTATURA
W = 0.9789, p-value = 0.7679

Fig. 13: Prueba de Normalidad para Estaturas en Hombres


19

Usando la prueba KS-Lilliefor

> lillie.test(est_muj[,2])

Lilliefors (Kolmogorov-Smirnov) normality test

data: est_muj[, 2]
D = 0.056658, p-value = 0.6699

> lillie.test(est_hom[,2])

Lilliefors (Kolmogorov-Smirnov) normality test

data: est_hom[, 2]
D = 0.056208, p-value = 0.5422

Ambas pruebas indican que la distribución de las estaturas es Normal,


sin importar el Género. Con esto en mente lo que se tienen es un par
de muestras aleatorias independientes que provienen de poblaciones
normales. Estas muestras representan las Estaturas de los estudiantes
(Hombres y Mujeres).

2
Sean µX y σX la media y varianza poblacionales de las Estaturas pa-
ra los hombres y sea µY y σY2 la media y varianza poblacionales de
las Estaturas para las Mujeres. Los resultados muestrales para ambas
muestras son:

Fig. 14: Resúmenes Descriptivos


20

mean sd data:n
HOMBRE 171.3184 10.036470 38
MUJER 163.2344 8.754634 32

Las hipótesis a probar son:

H0 : µX − µY = 0 vs Ha : µX − µY > 0 .

Para determinar el estadı́stico de prueba, es necesario establecer como


son las varianzas poblacionales. Las hipótesis a probar son:
2 2
σX σX
H0 : = 1 vs Ha : 6= 1 .
σY2 σY2
El estadı́stico de prueba es
2
SX
FC = ∼ f (n − 1, m − 1) .
SY2
Usando R-Commander:

Fig. 15: Prueba de Hipótesis para Cociente de Varianzas

Los resultados de esta prueba son:


21

F test to compare two variances

data: ESTATURA by GENERO


F = 1.3143, num df = 37, denom df = 31, p-value = 0.4393
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6546239 2.5838951
sample estimates:
ratio of variances
1.314274

Debido a que se tiene un Valor P grande, no se puede rechazar H0 y


se cuncluye que la información está más acorde con asumir que las va-
2
rianzas poblacionales de ambas muestras son iguales, es decir, σX = σY2 .

Con esto presente, el estadı́stico de prueba para la hı́pótesis acerca de


la diferencia de medias es:
X̄ − Ȳ − δ0
TC = q ∼ t (n + m − 2) ,
Sp n1 + m1

donde
n = 38, x̄ = 171.318, sX = 10.036 ; m = 32, ȳ = 163.234, sY = 8.755 .
Usando R-Commander:

Fig. 16: Prueba de Hipótesis para Diferencia entre las estaturas Medias
22

Two Sample t-test

data: ESTATURA by GENERO


t = 3.5566, df = 68, p-value = 0.0003448
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
4.293657 Inf
sample estimates:
mean in group HOMBRE mean in group MUJER
171.3184 163.2344

Debido a que se tiene un Valor P muy pequeño, se rechaza H0 y se


concluye que la información muestral apoya la afirmación de que la
Estatura media de los hombres es superior a la de las mujeres. En el
siguiente gráfico se evidencia esta conclusión.

Fig. 17: BoxPlot para estaturas discriminado por Género


23

Pruebas de Hipótesis para la diferencias


de medias de poblaciones NO normales
Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que E[Xi ] = µX y
2
V ar[Xi ] = σX ; sea Y1 , Y2 , . . . , Ym otra muestra aleatoria tal que E[Yj ] =
µY y V ar[Yj ] = σY2 , ambas muestras aleatorias independientes entre si.
El interés en este caso es comparar las medias de ambas distribuciones.
Una manera práctica de hacerlo es considerando la diferencia µX − µY .
Sea δ0 un valor conocido. Las hipótesis a probar respecto a la diferencia
µX − µY son:

 µX − µY < δ0
H0 : µX − µY = δ0 vs Ha : µX − µY > δ0 .
µX − µY 6= δ0

El estadı́stico de prueba tiene una distribución aproximadamente Nor-


mal, cuando n y m son grandes(TLC):

a) Si las varianzas poblacionales son conocidas, entonces:

X̄ − Ȳ − δ0
ZC = q 2 2
aprox N (0, 1) .
σX σY
n
+ m

b) Si las varianzas poblacionales no son conocidas, entonces:

X̄ − Ȳ − δ0
ZC = q 2 aprox N (0, 1) .
SX SY2
n
+ m

La región de rechazo y Valor p de la prueba se calculan de manera


similar:
 
 ZC | ZC < − zα  P (Z < ZC )
R.C. = ZC | ZC > zα ; Vp= P (Z > ZC )
ZC | |ZC | > z α2 2 P (Z > |ZC |)
 

Ejemplo 6
Usando la misma base de datos de los estudiantes, se desea establecer
24

si las personas que no trabajan emplean en promedio más tiempo en


desplazamiento a la universidad que los que trabajan. Sea µX el tiem-
po medio requerido por un estudiante que no trabaja para llegar a la
2
universidad y sea σX la varianza poblacional de dichos tiempos. Adic-
cionalmente sea µY el tiempo medio requerido por un estudiante que
trabaja para llegar a la universidad y sea σY2 la varianza poblacional de
dichos tiempos. Ambas muestras aleatorias son independientes entre si.
Un resumen descriptivo de ambas muestras se muestra a continuación.

mean sd data:n
NO 27.07826 20.4698 46
SI 25.26667 21.9693 24

Observe que en este caso se desconocen las varianzas poblacionales para


ambas muestras. Las hipótesis a probar son:

H0 : µX − µY = 0 vs Ha : µX − µY > 0 .

Para probar este par de hipótesis se requiere saber si los tiempos para
los que trabajan y para los que no trabajan se distribuyen normal-
mente. Primero se separan los datos para los que trabajan y los que
no-trabajan:

> tiem_trab <- data[data[,10]=="SI", ]


> tiem_ntrab <- data[data[,10]=="NO", ]

H0 : Los tiempos de desplazamiento para los que no trabajan son normales

vs

Ha : Los tiempos de desplazamiento para los que no trabajan NO son normales

Usando R-Commander:
25

Fig. 18: Prueba de Normalidad para Tiempos discriminado por TRAB

El Valor P encontrado en ambas pruebas permite concluir que los tiem-


pos de desplazamiento, tanto para los que no trabajan como para los
que trabajan, NO son normales. Retomando las hipótesis iniciales, el
estadı́stico de prueba será:as hipótesis a probar son:

X̄ − Ȳ − 0
ZC = q 2 aprox N (0, 1) .
SX SY2
n
+ m

De los resultados muestrales se tiene que:

X̄ = 27.078 SX = 20.4698 n = 46 ; X̄ = 25.267 SX = 21.9693 m = 24 .

Con esto se tiene que:

ZC = 0.335 y V p = P (Z > 0.335) = 0.3688125 .

Este Valor P no permite rechazar H0 y por lo tanto la evidencia mues-


tral no es suficiente para afirmar que el tiempo medio empleado por los
que No trabajan es superior al tiempo medio empleado por los que tra-
bajan; por lo tanto el tiempo medio empleado por los que no trabajan
es inferior o igual al tiempo medio de los que trabajan. Un diagrama
de Box-Plot permite evidenciar gráficamente esta afirmación.
26

Fig. 19: BoxPlot para Tiempos discriminados por TRAB

Pruebas de Hipótesis para una proporción


Sea X una variable aleatoria que representa el número de éxitos en n
ensayos. Sea sabe que X ∼ Bin(n, p). Sea p0 un valor particular para
p. Las hipótesss a probar son:

 p < p0
H0 : p = p0 vs Ha : p > p0 .
p 6= p0

Si n es grande, el estadı́stico de prueba se basa en el TLC. En este caso


el estadı́stico de prueba es:
p̂ − p0
ZC = q aprox N (0, 1) .
p0 (1−p0 )
n

Ejemplo 7
Se tiene la creencia de que el porcentaje de estudiantes que no trabajan
es superioral 60 %. ¿Es esta afirmación coherente con los datos recopila-
dos? Sea X la variable aleatoria nque representa el número de estudian-
tes que no trabajan en la muestra de 70. Se tiene que X ∼ Bin(70, p).
27

Las hipótesis a probar son:


H0 : p = 0.6 vs Ha : p > 0.6
Aca, p0 = 0.6. Como n = 70 es grande, el estadı́stico de pruebe es:
p̂ − 0.6
ZC = q aprox N (0, 1) .
0.6 (1−0.6)
70

Usando R-Commander, se obtienen los siguiente resultados:

Fig. 20: Prueba de Hipótesis para proporción de estudiantes que no trabajan.

De la figura anterior se tiene que



ZC = 0.95238 = 0.9759 y V p = P (Z > 0.9759) = 0.1646 .
Este Valor P indica que la Hipótesis nula No puede ser rechazada y
concluir que el procentaje de estudiantes que No trabajan es inferior o
igual al 60 %.
28

La justificación por la cual en el R-Commander aparece un estadı́stico


diferente ((X-square)), es debido al hecho de que:
 
p̂ − p0 
ZC2 =  q aprox χ2 (1) .
p0 (1−p0 )
n

El Valor P que aparece alli registrado se calcula como:

V p = P (χ2 (1) > 0.95238) = 0.1646 .

Las pruebas son equivalentes.

Pruebas de Bondad de Ajuste


Suponga que se tiene una experimento multinomial, es decir una serie
de ensayos (n ensayos) idénticos e independientes y k posibles cate-
gorı́as ó clases. Sea p i la probabilidad de clasificar en la categorı́a i y
sea Ni el número de ensayos que caen en la categorı́a i de los n ensayos.
Se tiene que N1 + · · · + Nk = n. Cada Ni será una v.a. binomial con
parámetros n y pi , i = 1, 2 · · · , k. El número esperado de ensayos en
la categorı́a i es E [Ni ] = n pi ; i = 1, 2 · · · , k

Se desea establecer si los datos observados provienen de cierta distri-


bución especial con c.d.f. F 0 (x). Las hipótesis a probar son:

H0 : F (x) = F0 (x) vs Ha : F0 (x) no es la c.d.f. asociada a la muestra.

Si F0 está claramente especificada, es posible conocer valores particu-


lares para los pi ; i = 1, 2, . . . , k y asi obtener E [Ni ]. En otro caso, los
pi deberán ser estimados y en vez de tener E [Ni ], se estima con n p̂i ,
i = 1, 2, . . . , k.

En resumen se tiene:
29

clase 1 2 k total
Frec observada n1 n2 ... nk n
Probabilidad p1 p2 ... pk 1
Frec esperada n p1 n p2 n pk n

Si n pi ≥ 5 ; i = 1, 2 . . . , k , la v.a.
k
X (Ni − n pi ) 2
X= ∼ χ 2 (k − 1) .
i=1
n pi

Observe que
k
X (Ni − n pi ) 2 X (f.obs − f.esp) 2
X= = ∼ χ2 (k − 1) .
i=1
n pi todas las celdas
f.esp

Suponga que se desea establecer valores particulares para los p i , es de-


cir, se quieren probar las hipótesis:

H0 : p i = pi 0 ; i = 1, 2 . . . , k vs Ha : ∃ j tal que pj 6= pj 0 .
Estadı́stico de Prueba:
k
X (ni − n pi ) 2
XC = ∼ χ 2 (k − 1) .
i=1
n pi

El Valor P de esta prueba se calcula como:

P (χ2 (k − 1) > XC ) .

Si alguna de las categorı́as no cumple con el supuesto de que n pi ≥ 5


debe unirse a otra adyacente y formar una nueva categorı́a. Esto cla-
ramente reduce los grados de libertad de la χ2 .

Ejemplo 8
Con base en un estudio realizado el semestre pasado, se encontró que
los estudiantes estaban distribuı́dos en los seis estratos en los siguientes
porcentajes:
30

Estrato 1 2 3 4 5 6
P roporción 0.08 0.15 0.37 0.30 0.06 0.04

Se desea establecer si la información recopilada en el siguiente semes-


tre permite corroborar si estas proporciones se mantienen igual o han
cambiado. Se desea probrar las hipótesis:

H0 : p1 = 0.08, p2 = 0.15, p3 = 0.37, p4 = 0.30, p5 = 0.06, p6 = 0.04

vs
Ha : Alguna de las proporciones ha cambiado

Usando el R-Commander se obtiene una tabla de frecuencias:

counts:
ESTRATO
1 2 3 4 5 6
10 5 25 21 5 4

Bajo H0 se obtienen las frecuencias esperadas como n pi0 . Con base en


la muestra se registra la siguiente información:

Clase 1 2 3 4 5 6
F rec − Obs 10 5 25 21 5 4
F rec − Esp 5.6 10.5 25.9 21 4.2 2.8

Si no se tiene en cuenta la condición sobre las frecuencias esperadas, el


estadı́stico de prueba es:

6
X (Ni − ei )2
XC = ∼ χ2 (5) .
i=1
ei

Usando R-Commander:
31

Fig. 21: Prueba de Bondad de Ajuste para Estrato.

Se obtiene los siguientes resultados:


XC = 7.036 ; V p = P (χ2 (5) > 7.036) = 0.218 .
El Valor P indica que no se puede rechazar H0 , por lo que se asume
que las proporciones por estratos NO han cambiado.

Sinembargo, esta prueba tiene un error, y es que el supuesto de que


npi ≥ 5 no se cumple para las últimas dos categorı́as. Para hacer bien
esta prueba se requiere agrupar las categorı́as Estratos 5 y 6 en una
sola, digamos 5+ . El código en R para hacerlo es el siguiente:

> ndata <- data


> ndata[,9] <- Recode(data[,9],’1=1; 2=2; 3=3; 4=4; 5:6=5’,as.factor.result=T)

Usamos el nuevo conjunto de datos llamado ndata. Las hipótesis nula


han cambiado a la siguiente:
H0 : p1 = 0.08, p2 = 0.15, p3 = 0.37, p4 = 0.30, p5 = 0.10
Usando el R-Commander se obtiene una nueva tabla de frecuencias:
32

counts:
ESTRATO
1 2 3 4 5
10 5 25 21 9

Bajo H0 se obtienen las frecuencias esperadas como n pi0 . Con base en


la muestra se registra la siguiente información:

Clase 1 2 3 4 5
F rec − Obs 10 5 25 21 9
F rec − Esp 5.6 10.5 25.9 21 7

Estadı́stico de prueba:
5
X (Ni − ei )2
XC = ∼ χ2 (4) .
i=1
ei

Usando R-Commander:

Fig. 22: Prueba de Bondad de Ajuste para Estrato Recodificado.

El Valor Pindica que no se debe rechazar H0 y por lo tanto la conclusión


es que las proporciones por estratos no han cambiado en comparación
con las del semestre pasado.

También podría gustarte