PH Con R Comander PDF

1
Pruebas de Hipótesis con R

Commander
P rof esor : René Iral Palomino
Of icina : 43 − 320
Correo : riral@unal.edu.co
Pruebas de Normalidad para muestras

aleatorias
En el análisis de un conjunto de datos, es crucial conocer la distribución
de probabilidad de la cual provienen. Esta caracterı́stica es importante en
el desarrollo, no solo de las pruebas de hipótesis, sino del cálculo de otras
medidas de interés.
En particular, el supuesto más usado en el planteamiento de pruebas de
hipótesis se refiere a determinar si dicho conjunto de datos continuos provie-
nen de una distribución normal. Existe un número importante de pruebas
reportadas en la literatura propuestas para probar si unos datos se compor-
tan normalmente o no.
Entre las pruebas más usadas están: Shapiro-Wilks, Kolmogorov-Smirnov,

KS-Lilliefors, Cramer Von Misses, Jarque-Bera, D’Agostino’s K-squared test,
AndersonDarling, Pearson’s chi-squared, ShapiroFrancia, entre otros.
Se emplearan para efectos de este documento el test de Shapiro-Wilks y el
Test KS-Lilliefor. El primero funciona bien en tamaños de muestra no muy
grandes. El segundo requiere de muestras grandes para funcionar mejor.
Sea X 1 , . . . , X n una m.a. de una población con media µ y varianza σ 2 . Se

desea probar el juego de hipótesis:
H0 : La muestra proviene de una N (µ, σ 2 )
vs
Ha : La muestra no proviene de una Normal .
2
Shapiro-Wilks. Este test fué propuesto por Samuel Sanford Shapiro

y Martin Wilk y publicado en 1965. Sea X(1) , . . . , X(n) , la muestra
ordenada de menor a mayor. Estas nuevas variables se conocen como
Estadı́sticos de Orden.
El estadı́stico de prueba es:
n 2
P
ai X(i)
i=1
W = Pn ,
2
(Xi − x̄ )
i=1
donde a1 , a2 , . . . , an son tales que

mT V −1
(a1 , a2 , . . . , an ) = 1 .
(mT V −1 V −1 m) 2
m = (m1 , . . . , mn )T es el vector de valores esperados de los estadı́sticos
de orden de una muestra aleatoria que proviene de una distribución
normal estándar y V es la respectiva matriz de covarianzas de dichos
estadı́sticos de orden. Se rechaza la hipótesis nula de Normalidad si W
es inferior a un valor crı́tico de la distribución empı́rica de W o si el
Valor p es pequeño.
Kolmogorov-Smirnov o prueba KS. Este test fué sugerido por Andréi
Nikoláyevich Kolmogórov en 1933 y por Stanislav Konstantı́novich Smir-
nov 1939. Es un test no-paramétrico para probar la igualdad de dos
distribuciones continuas unidimensionales, el cual puede ser usado para
comparar una muestra aleatoria con una distribución de probabilidad
de referencia. Este estadı́stico calcula la distancia entre la distribución
emprı́rica de una muestra y la distribución acumulada de una distribu-
ción de referencia.
Dada una muestra aleatoria X 1 , . . . , X n , la Distribución Empı́rica de

la muestra se define como:
n
1 X
Fn (x) = I[−∞, x] (Xi ) ,
n i=1
donde
0 ; Xi > x
I[−∞, x] =
1 ; Xi ≤ x
3
Bajo la hipótesis nula de que la distribución acumulada de la muestra

es F0 (x), el estadı́stico de prueba es:
Dn = Supx | Fn (x) − F0 (x) | .
Para determinar la región de rechazo del test, se usan los valores crı́ticos
de la distribución asintótica de Dn . Para un α dado la hipótesis nula
se rechaza si Dn > √kαn , donde kα se encuentra de la ecuación
P (K ≤ kα ) = 1 − α .
La siguiente tabla muestra algunos valores crı́ticos para el estadı́stico
de Kolmogorov-Smirnov:
Fig. 1: Valores Crı́ticos prueba KS
En el caso de una prueba de normalidad, Lilliefors propuso una modifi-

cación a la Prueba KS cuando los parámetros de la distribución normal
son desconocidos y deben ser estimados previamente. La tabla con los
cuantiles corregidos se muestra en la figura 2.
4
Fig. 2: Valores Crı́ticos prueba KS-Lilliefors
Usando el paquete R se tiene acceso a estas dos pruebas. Los comandos

a ser usados son:
Para la prueba de Shapiro-Wilks: ((shapiro.test(datos)))
Para la prueba KS-Lilliefors: ((lillie.test(datos)))
Usando R-Commander se tiene acceso a la Prueba Shapiro-Wilks a

traves del menú:
((Estadı́sticos - Resúmenes - Test de normalidad de Shapiro-Wilk)):
Fig. 3: Test Shapiro-Wilk en R Commander

5
Ejemplo 1
Se tiene información sobre un grupo de 200 estudiantes de cierta uni-
versidad. A cada sujeto se le indagó por 10 varibles de interés: GE-
NERO(Hombre o Mujer), ESTATURA(en cms), MASA(en Kgr), HO-
RAS(dedicadas semanalmente a estudiar fuera de clases), EDAD(en
años), TIEMPO(requerido para llegar de su residencia a la Universidad
en min), PAPA(del semestre anterior), VMATRI(valor de matrı́cula en
miles de pesos), ESTRATO(de la residencia donde habita) y TRAB(SI
o NO). UN análisis descriptivo de las variables continuas se muestra a
contiación.
> summary(datos[,c(2,3,5,6,7,8)])
ESTATURA MASA EDAD

Min. :143.4 Min. :41.10 Min. :16.00
1st Qu.:161.7 1st Qu.:60.27 1st Qu.:19.20
Median :167.8 Median :67.35 Median :21.25
Mean :168.3 Mean :65.62 Mean :21.34
3rd Qu.:174.4 3rd Qu.:71.90 3rd Qu.:23.02
Max. :196.9 Max. :87.40 Max. :30.60
TIEMPO PAPA VMATRI

Min. : 2.200 Min. :3.000 Min. : 54.3
1st Qu.: 9.825 1st Qu.:3.600 1st Qu.: 461.3
Median :20.600 Median :3.700 Median :1074.5
Mean :27.537 Mean :3.763 Mean :1144.0
3rd Qu.:38.600 3rd Qu.:4.000 3rd Qu.:1638.2
Max. :97.400 Max. :4.500 Max. :3644.7
Los Gráficos de estas mismas variables se muestran en la figura 4.
De la figura 4 se puede levemente evidenciar que las variables Estatu-

ra, Masa y Papa tienen formas aproximadamente simétricas y podrı́an
provenir de distribuciones normales. Mientras de las demás tienen for-
mas poco simétricas.
6
Fig. 4: Histogramas de variables Continuas
Suponga que se desea probar si las estaturas de los estudiantes se com-

portan aproximadamente normales. Las hipótesis a probar son:
H0 : Las Estaturas se distribuyen Normalmente vs
Ha : Las Estaturas no se distribuyen Normalmente.
Usando el Test de Shapiro-Wilks se tiene:
Fig. 5: Resultado prueba Shapiro-Wilk para Estatura

7
Shapiro-Wilk normality test
data: ESTATURA
W = 0.9922, p-value = 0.36
El Valor p indica que no se puede rechazar H0 y por lo tanto la evidencia

muestral es acorde con que las estaturas se distribuyen normalmente.
Usando el Test de KS-Lilliefors:
> lillie.test(ESTATURA)
Lilliefors (Kolmogorov-Smirnov) normality test
data: ESTATURA
D = 0.042, p-value = 0.5266
La conclusión es la misma. Ambas pruebas permiten concluir que las

estaturas provienen de una distribución normal.
Para la variable tiempo:

H0 : Los Tiempos se distribuyen Normalmente vs
Ha : Los Tiempos no se distribuyen Normalmente.
Usando Shapiro-Wilks:
Fig. 6: Resultado prueba Shapiro-Wilk para Tiempo
> with(datos, shapiro.test(TIEMPO))
data: TIEMPO
W = 0.8736, p-value = 7.053e-12
8
Usando KS-Lilliefors:
> lillie.test(TIEMPO)
data: TIEMPO
D = 0.1446, p-value = 5.753e-11
Ambos valores p son extremadamente pequeños, lo que indica que la

hipótesis nula se rechazará con mucha seguridad (el error es casi nulo).
Esto permite concluir que los tiempos de desplazamiento NO se distri-
buyen normalmente.
Para la variable EDAD:
> with(datos, shapiro.test(EDAD))
data: EDAD
W = 0.9688, p-value = 0.0002023
En este caso se rechaza la hipótesis nula de que las Edades se distri-

buyen Normalmente y se concluye que las Edades NO se distribuyen
Normalmente.
Debido a que existen muchos Test para probar Normalidad, una alter-
nativa es construyendo un gráfico especial conocido como QQplot. Este
grafica los cuantiles muestrales de los datos versus los cuantiles teóricos
de una distribución Normal. Si en efecto los datos prvienen de una dis-
tribución Normal, se debe evidenciun gráfico muy lineal, posiblemente
no en los extremos. Si el gráfico se aleja mucho de dicha lı́nea, es evi-
dencia de No normalidad. Para la variable Edad, en R-Commaner los
pasos se muestran en la figura 7. El QQplot se muestra en la figura 8.
9
Fig. 7: Pasos para obtener el QQplot de la Edad
Fig. 8: QQplot para la variable Edad

10
Para efectos de mantener una notación estándar en todo el documento,

se supone que se tienen una muestra aleatoria X1 , X2 , . . . , Xn de una
2
población con media µX y varianza σX .
Pruebas de Hipótesis para la media de una

Población Normal
Para un valor praticular de µX , µ0 , se plantean tres tipos de hipótesis:

 µX < µ0
H0 : µX = µ0 vs Ha : µX > µ0 .
µX 6= µ0

El estadı́stico de prueba dependerá de si se conoce la varianza pobla-

cional o no.
2
a) σX es conocida. En este caso el estadı́stico de prueba es:
X̄ − µ0
ZC = σX ∼ N (0, 1) .
√
n
La región de rechazo y los respectivos valores p se muestran a

continuación:
 
 ZC | ZC < − zα  P (Z < ZC )
R.C. = ZC | ZC > z α ; Vp= P (Z > ZC )
ZC | |ZC | > z α2 2 P (Z > |ZC |)
 
2
b) σX es desconocida. En este caso el estadı́stico de prueba es:
X̄ − µ0
TC = SX
∼ t(n − 1) .
√
n
La región de rechazo y los respectivos valores p se muestran a

continuación:
 
 TC | TC < − tα (n − 1)  P (t(n − 1) < TC )
R.C. = TC | TC > tα ((n − 1) ; Vp= P (t(n − 1) > TC ) .
TC | |TC | > t 2 (n − 1) 2 P (t(n − 1) > |TC |)
 α

11
Ejemplo 2
Considere los datos del ejemplo 1. Se desea establecer si la estatura
promedio de los estudiantes es superior a 168 cms. Si X representa
la estatura de un estudiante de dicha Universidad, sedesea probar si
µX > 168. Previamente se probó que las Estaturas se distribuyen Nor-
malmente. Con esto en mente las hipótesis a probar son:
H0 : µX = 168 vs Ha : µX > 168 .
X̄ − 168
TC = SX
∼ t(n − 1) .
√
n
De la muestra se obtienen los siguientes resultados:
n = 200 , X̄ = 168.3 , SX = 10.212 .
TC = 0.407 y V p = P (t(199) > 0.407) = 0.342 . Usando R-Commander:
Fig. 9: Prueba T con RC ommander
Fig. 10: Especificación de H0 y Ha

12
Fig. 11: Valor p de la prueba
El resultado mostrado en la figura 11 indica que no hay suficiente evi-

dencia para afirmar que la estatura media es superior a 168 cms, por
lo tanto se asume que la estatura media de los estudiantes es inferior o
igual a 168 (Esto se concluye porque el valor p es 0.342, es decir, el error
que se comete al rechazar H0 con la información recopilada asumiendo
que fuera cierta es muy grande y no debe rechazarse.
Pruebas de Hipótesis para la media de una

Población No-Normal
Para un valor praticular de µX , µ0 , se plantean tres tipos de hipótesis:

 µX < µ0
H0 : µX = µ0 vs Ha : µX > µ0 .
µX 6= µ0


2
a) Si σX es conocida
X̄ − µ0
ZC = σX aprox N (0, 1) .
√
n
2
b) Si σX es desconocida
X̄ − µ0
ZC = SX
aprox N (0, 1) .
√
n
13
región de rechazo y Valor p:

 
 ZC | ZC < − zα P (Z < ZC )

R.C. = ZC | ZC > zα ; Vp= P (Z > ZC )
ZC | |ZC | > z α2 2 P (Z > |ZC |)
 
Ejemplo 3
Con los datos de los estudiantes, se tiene la creencia de que el tiempo
medio requerido para llegar a la universidad es menor a 20 min. Primero
es necesario determinar si la muestra proviene de una población normal.
H0 : Los tiempos de desplazamiento son normales

vs
Ha : Los tiempos de desplazamiento NO son normales
Usando el test de Shapiro-Wilks se tiene:
Fig. 12: Prueba de Normalidad para Tiempos
El Valor p registrado en esta prueba indica que se debe rechazar H0 y

concluir que los tiempos de desplazamientos no son normales. Sea µX
el tiempo medio requerido para ir de casa o del trabajo a la universidad
2
y sea σX la varianza de dichos tiempos. Se desea probar las hipótesis:
H0 : µX = 20 Ha : µX < 20 .
14
Estadı́stico de prueba:
X̄ − 20
ZC = SX
aprox N (0, 1) .
√
n
Las estadı́sticas descriptivas básicas para esta variable:
Var Tiempo
mean sd n
26.45714 20.85432 70
Con estos datos se tiene que:

ZC = 2.591 V p = P (Z < 2.591) = 0.9952 .
Como el Valor P es tan grande, no se puede rechazar H0 , es decir, según
los datos registrados, el tiempo medio de desplazamiento es mayor o
igual a 20 min.
Ejemplo 4
Se desea establecer si la Masa propedio de los estudiantes de la univer-
sidad es superior a 63 kgr. Las hipótesis a probar son:
H0 : µX = 63 vs Ha : µX > 63 .
Para determinar el estadı́stico de prueba, es necesario establecer si las
masas se comportan normalmente o no. En este caso se desean probar
las hipótesis:
H0 : Las masas tienen una distribución normal
vs
H0 : Las masas NO tienen una distribución normal
Usando el Test Shapiro-Wilks
> with(datos, shapiro.test(MASA))
data: MASA
W = 0.982, p-value = 0.01159
15
El Valor P de esta prueba es pequeño, por lo cual se puede rechazar

H0 y concluir que las Masas NO se distribuyen normalmente. Asi las
cosas, el estadı́stico de prueba es:
X̄ − 63
ZC = aprox N (0, 1) .
√SX
200
Los resultados muestrales son:
n = 200 , X̄ = 65.619 , SX = 8.897 .
ZC = 4.163 y V p = P (Z > 4.163) = 0.0000157

Dado que el Valor P es extremadamente pequeño, puede rechazarse H0
con mucha seguridad y concluir que, según la información recolectada,
la masa media de los estudiantes supera los 63 Kgr.
Pruebas de Hipótesis para la diferencias

de medias de poblaciones normales
2
Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que Xi ∼ N (µX , σX ) y sea
2
Y1 , Y2 , . . . , Ym otra muestra aleatoria tal que Yj ∼ N (µY , σY ), ambas
muestras aleatorias independientes entre si. El interés en este caso es
comparar las medias de ambas distribuciones. Una manera práctica de
hacerlo es considerando la diferencia µX −µY . Sea δ0 un valor conocido.
Las hipótesis a probar respecto a la diferencia µX − µY son:

 µX − µY < δ0
H0 : µX − µY = δ0 vs Ha : µX − µY > δ0 .
µX − µY 6= δ0

El estadı́stico de prueba dependerá de como son las varianzas pobla-

cionales.
2
1. σX y σY2 son conocidas. En este caso el estadı́stico de prueba es:
X̄ − Ȳ − δ0
ZC = q 2 2
∼ N (0, 1) .
σX σX
n
+ m
16
Región de rechazo y Valor p:

 
 ZC | ZC < − zα  P (Z < ZC )
R.C. = ZC | ZC > zα ; Vp= P (Z > ZC )
ZC | |ZC | > z α2 2 P (Z > |ZC |)
 
2
2. σX y σY2 son desconocidas. En este caso la obtención del estadı́stico
de prueba dependerá de la relación entre las varianzas poblaciona-
les de ambas muestras. Una manera de establecer la relación entre
las varianzas de dos poblaciones es a través de un procedimiento
de Prueba de Hipótesis.
Pruebas de Hipótesis para Cociente de Varianzas
Bajo los supuestos antes descritos, se desean probar las hipótesis:

 2
 σX < λ0

σY2



2 2

σ  σX
H0 : X = λ 0 vs H a : > λ0 ,
σY2 
 σY2
σ2


 X 6= λ0


σY2
donde λ0 es un valor conocido. El estadı́stico de prueba es:
2
1 SX
FC = 2
∼ f (n − 1, m − 1) .
λ0 SX
Región Crı́tica
 1

 FC | FC < fα (m−1,n−1)
FC | FC > fα (n − 1, m − 1) .
1
 FC | FC < f α (m−1,n−1)
 o FC > f 2 (n − 1, m − 1)
α
2
El caso más usado se tiene cuando λ0 = 1, que corresponde a pro-

σ2 2
bar si σX2 = 1. Si se rechaza H0 se concluye que σX 6= σY2 , en caso
Y
2
contrario que σX = σY2 .
Superado este paso, se consideran dos casos para el estadı́stico de

prueba para la hipótesis de diferencia de medias.
17
2
a) σX = σY2 . En este caso el estadı́stico de prueba es:
2
X̄ − Ȳ − δ0 (n − 1)SX + (m − 1)SY2
TC = q ∼ t(n+m−2) ; Sp2 = .
Sp n1 + m1 n+m−2
Región Crı́tica y Valor p:

 
 TC | TC < −tα (n + m − 2)  P (t(n + m − 2) < TC )
TC | TC > tα (n + m − 2) ; P (t(n + m − 2) > TC ) .
TC | |TC | > t α2 (n + m − 2) 2 P (t(n + m − 2) > |TC |)
 
2
b) σX 6= σY2 . En este caso el estadı́stico de prueba es:
2 2
SX SY2
X̄ − Ȳ − δ0 n
+ m
TC = q 2 2
∼ t(ν) ; ν = 2 2 2 2 − 2 .
SX SX S S
X Y
n
+ m n m
n+1
+ m+1
La región de rechazo y el cálculo del Valor p están dados por:
 
 TC | TC < −tα (ν)  P (t(ν) < TC )
TC | TC > tα (ν) ; P (t(ν) > TC ) .
TC | |TC | > t 2 (ν) 2 P (t(ν) > |TC |)
 α

Ejemplo 5
Retomando la base de datos de los estudiantes de la universidad, se
tiene la creencia de que la estatura media en los hombres es superior
a la estatura media en la mujeres. Primero se verifica si las Estaturas
se distribuyen Normalmente discriminando por género. Para lograrlo
se deben separar las muestras por Género. Usando R se utilizan los
comandos:
> est_muj <- Datos[Datos[,1]=="MUJER",]

> est_hom <- Datos[Datos[,1]=="HOMBRE",]
Luego se prueba si ambas muestras provienen de poblaciones norma-

les. En la figura 13 se ilustra el uso de la Prueba Shapiro-Wilks en
R-Commander.
Con un procedimiento similar se realiza la prueba para las estaturas de

las mujeres. Los resultados se muestran a continuación:
18
> with(est_hom, shapiro.test(ESTATURA))
Prueba de Normalidad para Estaturas de los Hombres

data: ESTATURA
W = 0.9918, p-value = 0.9926
> with(est_muj, shapiro.test(ESTATURA))
Prueba de Normalidad para Estaturas de las Mujeress

data: ESTATURA
W = 0.9789, p-value = 0.7679
Fig. 13: Prueba de Normalidad para Estaturas en Hombres

19
Usando la prueba KS-Lilliefor
> lillie.test(est_muj[,2])
data: est_muj[, 2]
D = 0.056658, p-value = 0.6699
> lillie.test(est_hom[,2])
data: est_hom[, 2]
D = 0.056208, p-value = 0.5422
Ambas pruebas indican que la distribución de las estaturas es Normal,

sin importar el Género. Con esto en mente lo que se tienen es un par
de muestras aleatorias independientes que provienen de poblaciones
normales. Estas muestras representan las Estaturas de los estudiantes
(Hombres y Mujeres).
2
Sean µX y σX la media y varianza poblacionales de las Estaturas pa-
ra los hombres y sea µY y σY2 la media y varianza poblacionales de
las Estaturas para las Mujeres. Los resultados muestrales para ambas
muestras son:
Fig. 14: Resúmenes Descriptivos

20
mean sd data:n
HOMBRE 171.3184 10.036470 38
MUJER 163.2344 8.754634 32
Las hipótesis a probar son:
H0 : µX − µY = 0 vs Ha : µX − µY > 0 .
Para determinar el estadı́stico de prueba, es necesario establecer como

son las varianzas poblacionales. Las hipótesis a probar son:
2 2
σX σX
H0 : = 1 vs Ha : 6= 1 .
σY2 σY2
El estadı́stico de prueba es
2
SX
FC = ∼ f (n − 1, m − 1) .
SY2
Usando R-Commander:
Fig. 15: Prueba de Hipótesis para Cociente de Varianzas
Los resultados de esta prueba son:

21
F test to compare two variances
data: ESTATURA by GENERO

F = 1.3143, num df = 37, denom df = 31, p-value = 0.4393
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6546239 2.5838951
sample estimates:
ratio of variances
1.314274
Debido a que se tiene un Valor P grande, no se puede rechazar H0 y

se cuncluye que la información está más acorde con asumir que las va-
2
rianzas poblacionales de ambas muestras son iguales, es decir, σX = σY2 .
Con esto presente, el estadı́stico de prueba para la hı́pótesis acerca de

la diferencia de medias es:
X̄ − Ȳ − δ0
TC = q ∼ t (n + m − 2) ,
Sp n1 + m1
donde
n = 38, x̄ = 171.318, sX = 10.036 ; m = 32, ȳ = 163.234, sY = 8.755 .
Usando R-Commander:
Fig. 16: Prueba de Hipótesis para Diferencia entre las estaturas Medias
22
Two Sample t-test
data: ESTATURA by GENERO

t = 3.5566, df = 68, p-value = 0.0003448
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
4.293657 Inf
sample estimates:
mean in group HOMBRE mean in group MUJER
171.3184 163.2344
Debido a que se tiene un Valor P muy pequeño, se rechaza H0 y se

concluye que la información muestral apoya la afirmación de que la
Estatura media de los hombres es superior a la de las mujeres. En el
siguiente gráfico se evidencia esta conclusión.
Fig. 17: BoxPlot para estaturas discriminado por Género

23
Pruebas de Hipótesis para la diferencias

de medias de poblaciones NO normales
Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que E[Xi ] = µX y
2
V ar[Xi ] = σX ; sea Y1 , Y2 , . . . , Ym otra muestra aleatoria tal que E[Yj ] =
µY y V ar[Yj ] = σY2 , ambas muestras aleatorias independientes entre si.
El interés en este caso es comparar las medias de ambas distribuciones.
Una manera práctica de hacerlo es considerando la diferencia µX − µY .
Sea δ0 un valor conocido. Las hipótesis a probar respecto a la diferencia
µX − µY son:

 µX − µY < δ0
H0 : µX − µY = δ0 vs Ha : µX − µY > δ0 .
µX − µY 6= δ0

El estadı́stico de prueba tiene una distribución aproximadamente Nor-

mal, cuando n y m son grandes(TLC):
a) Si las varianzas poblacionales son conocidas, entonces:
X̄ − Ȳ − δ0
ZC = q 2 2
aprox N (0, 1) .
σX σY
n
+ m
b) Si las varianzas poblacionales no son conocidas, entonces:
X̄ − Ȳ − δ0
ZC = q 2 aprox N (0, 1) .
SX SY2
n
+ m
La región de rechazo y Valor p de la prueba se calculan de manera

similar:
 
 ZC | ZC < − zα  P (Z < ZC )
R.C. = ZC | ZC > zα ; Vp= P (Z > ZC )
ZC | |ZC | > z α2 2 P (Z > |ZC |)
 
Ejemplo 6
Usando la misma base de datos de los estudiantes, se desea establecer
24
si las personas que no trabajan emplean en promedio más tiempo en

desplazamiento a la universidad que los que trabajan. Sea µX el tiem-
po medio requerido por un estudiante que no trabaja para llegar a la
2
universidad y sea σX la varianza poblacional de dichos tiempos. Adic-
cionalmente sea µY el tiempo medio requerido por un estudiante que
trabaja para llegar a la universidad y sea σY2 la varianza poblacional de
dichos tiempos. Ambas muestras aleatorias son independientes entre si.
Un resumen descriptivo de ambas muestras se muestra a continuación.
mean sd data:n
NO 27.07826 20.4698 46
SI 25.26667 21.9693 24
Observe que en este caso se desconocen las varianzas poblacionales para

ambas muestras. Las hipótesis a probar son:
H0 : µX − µY = 0 vs Ha : µX − µY > 0 .
Para probar este par de hipótesis se requiere saber si los tiempos para
los que trabajan y para los que no trabajan se distribuyen normal-
mente. Primero se separan los datos para los que trabajan y los que
no-trabajan:
> tiem_trab <- data[data[,10]=="SI", ]

> tiem_ntrab <- data[data[,10]=="NO", ]
H0 : Los tiempos de desplazamiento para los que no trabajan son normales
vs
Ha : Los tiempos de desplazamiento para los que no trabajan NO son normales
Usando R-Commander:
25
Fig. 18: Prueba de Normalidad para Tiempos discriminado por TRAB
El Valor P encontrado en ambas pruebas permite concluir que los tiem-

pos de desplazamiento, tanto para los que no trabajan como para los
que trabajan, NO son normales. Retomando las hipótesis iniciales, el
estadı́stico de prueba será:as hipótesis a probar son:
X̄ − Ȳ − 0
ZC = q 2 aprox N (0, 1) .
SX SY2
n
+ m
De los resultados muestrales se tiene que:
X̄ = 27.078 SX = 20.4698 n = 46 ; X̄ = 25.267 SX = 21.9693 m = 24 .
Con esto se tiene que:
ZC = 0.335 y V p = P (Z > 0.335) = 0.3688125 .
Este Valor P no permite rechazar H0 y por lo tanto la evidencia mues-

tral no es suficiente para afirmar que el tiempo medio empleado por los
que No trabajan es superior al tiempo medio empleado por los que tra-
bajan; por lo tanto el tiempo medio empleado por los que no trabajan
es inferior o igual al tiempo medio de los que trabajan. Un diagrama
de Box-Plot permite evidenciar gráficamente esta afirmación.
26
Fig. 19: BoxPlot para Tiempos discriminados por TRAB
Pruebas de Hipótesis para una proporción

Sea X una variable aleatoria que representa el número de éxitos en n
ensayos. Sea sabe que X ∼ Bin(n, p). Sea p0 un valor particular para
p. Las hipótesss a probar son:

 p < p0
H0 : p = p0 vs Ha : p > p0 .
p 6= p0

Si n es grande, el estadı́stico de prueba se basa en el TLC. En este caso

el estadı́stico de prueba es:
p̂ − p0
ZC = q aprox N (0, 1) .
p0 (1−p0 )
n
Ejemplo 7
Se tiene la creencia de que el porcentaje de estudiantes que no trabajan
es superioral 60 %. ¿Es esta afirmación coherente con los datos recopila-
dos? Sea X la variable aleatoria nque representa el número de estudian-
tes que no trabajan en la muestra de 70. Se tiene que X ∼ Bin(70, p).
27
Las hipótesis a probar son:

H0 : p = 0.6 vs Ha : p > 0.6
Aca, p0 = 0.6. Como n = 70 es grande, el estadı́stico de pruebe es:
p̂ − 0.6
ZC = q aprox N (0, 1) .
0.6 (1−0.6)
70
Usando R-Commander, se obtienen los siguiente resultados:
Fig. 20: Prueba de Hipótesis para proporción de estudiantes que no trabajan.
De la figura anterior se tiene que

√
ZC = 0.95238 = 0.9759 y V p = P (Z > 0.9759) = 0.1646 .
Este Valor P indica que la Hipótesis nula No puede ser rechazada y
concluir que el procentaje de estudiantes que No trabajan es inferior o
igual al 60 %.
28
La justificación por la cual en el R-Commander aparece un estadı́stico

diferente ((X-square)), es debido al hecho de que:
 
p̂ − p0 
ZC2 =  q aprox χ2 (1) .
p0 (1−p0 )
n
El Valor P que aparece alli registrado se calcula como:
V p = P (χ2 (1) > 0.95238) = 0.1646 .
Las pruebas son equivalentes.
Pruebas de Bondad de Ajuste

Suponga que se tiene una experimento multinomial, es decir una serie
de ensayos (n ensayos) idénticos e independientes y k posibles cate-
gorı́as ó clases. Sea p i la probabilidad de clasificar en la categorı́a i y
sea Ni el número de ensayos que caen en la categorı́a i de los n ensayos.
Se tiene que N1 + · · · + Nk = n. Cada Ni será una v.a. binomial con
parámetros n y pi , i = 1, 2 · · · , k. El número esperado de ensayos en
la categorı́a i es E [Ni ] = n pi ; i = 1, 2 · · · , k
Se desea establecer si los datos observados provienen de cierta distri-

bución especial con c.d.f. F 0 (x). Las hipótesis a probar son:
H0 : F (x) = F0 (x) vs Ha : F0 (x) no es la c.d.f. asociada a la muestra.
Si F0 está claramente especificada, es posible conocer valores particu-

lares para los pi ; i = 1, 2, . . . , k y asi obtener E [Ni ]. En otro caso, los
pi deberán ser estimados y en vez de tener E [Ni ], se estima con n p̂i ,
i = 1, 2, . . . , k.
En resumen se tiene:
29
clase 1 2 k total
Frec observada n1 n2 ... nk n
Probabilidad p1 p2 ... pk 1
Frec esperada n p1 n p2 n pk n
Si n pi ≥ 5 ; i = 1, 2 . . . , k , la v.a.
k
X (Ni − n pi ) 2
X= ∼ χ 2 (k − 1) .
i=1
n pi
Observe que
k
X (Ni − n pi ) 2 X (f.obs − f.esp) 2
X= = ∼ χ2 (k − 1) .
i=1
n pi todas las celdas
f.esp
Suponga que se desea establecer valores particulares para los p i , es de-

cir, se quieren probar las hipótesis:
H0 : p i = pi 0 ; i = 1, 2 . . . , k vs Ha : ∃ j tal que pj 6= pj 0 .
Estadı́stico de Prueba:
k
X (ni − n pi ) 2
XC = ∼ χ 2 (k − 1) .
i=1
n pi
El Valor P de esta prueba se calcula como:
P (χ2 (k − 1) > XC ) .
Si alguna de las categorı́as no cumple con el supuesto de que n pi ≥ 5

debe unirse a otra adyacente y formar una nueva categorı́a. Esto cla-
ramente reduce los grados de libertad de la χ2 .
Ejemplo 8
Con base en un estudio realizado el semestre pasado, se encontró que
los estudiantes estaban distribuı́dos en los seis estratos en los siguientes
porcentajes:
30
Estrato 1 2 3 4 5 6
P roporción 0.08 0.15 0.37 0.30 0.06 0.04
Se desea establecer si la información recopilada en el siguiente semes-

tre permite corroborar si estas proporciones se mantienen igual o han
cambiado. Se desea probrar las hipótesis:
H0 : p1 = 0.08, p2 = 0.15, p3 = 0.37, p4 = 0.30, p5 = 0.06, p6 = 0.04
vs
Ha : Alguna de las proporciones ha cambiado
Usando el R-Commander se obtiene una tabla de frecuencias:
counts:
ESTRATO
1 2 3 4 5 6
10 5 25 21 5 4
Bajo H0 se obtienen las frecuencias esperadas como n pi0 . Con base en

la muestra se registra la siguiente información:
Clase 1 2 3 4 5 6
F rec − Obs 10 5 25 21 5 4
F rec − Esp 5.6 10.5 25.9 21 4.2 2.8
Si no se tiene en cuenta la condición sobre las frecuencias esperadas, el

estadı́stico de prueba es:
6
X (Ni − ei )2
XC = ∼ χ2 (5) .
i=1
ei
Usando R-Commander:
31
Fig. 21: Prueba de Bondad de Ajuste para Estrato.
Se obtiene los siguientes resultados:

XC = 7.036 ; V p = P (χ2 (5) > 7.036) = 0.218 .
El Valor P indica que no se puede rechazar H0 , por lo que se asume
que las proporciones por estratos NO han cambiado.
Sinembargo, esta prueba tiene un error, y es que el supuesto de que

npi ≥ 5 no se cumple para las últimas dos categorı́as. Para hacer bien
esta prueba se requiere agrupar las categorı́as Estratos 5 y 6 en una
sola, digamos 5+ . El código en R para hacerlo es el siguiente:
> ndata <- data

> ndata[,9] <- Recode(data[,9],’1=1; 2=2; 3=3; 4=4; 5:6=5’,as.factor.result=T)
Usamos el nuevo conjunto de datos llamado ndata. Las hipótesis nula

han cambiado a la siguiente:
H0 : p1 = 0.08, p2 = 0.15, p3 = 0.37, p4 = 0.30, p5 = 0.10
Usando el R-Commander se obtiene una nueva tabla de frecuencias:
32
counts:
ESTRATO
1 2 3 4 5
10 5 25 21 9
Bajo H0 se obtienen las frecuencias esperadas como n pi0 . Con base en

la muestra se registra la siguiente información:
Clase 1 2 3 4 5
F rec − Obs 10 5 25 21 9
F rec − Esp 5.6 10.5 25.9 21 7
Estadı́stico de prueba:
5
X (Ni − ei )2
XC = ∼ χ2 (4) .
i=1
ei
Usando R-Commander:
Fig. 22: Prueba de Bondad de Ajuste para Estrato Recodificado.
El Valor Pindica que no se debe rechazar H0 y por lo tanto la conclusión

es que las proporciones por estratos no han cambiado en comparación
con las del semestre pasado.

PH Con R Comander PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PH Con R Comander PDF

Cargado por

Copyright:

Formatos disponibles

1

Pruebas de Hipótesis con R

Pruebas de Normalidad para muestras

Entre las pruebas más usadas están: Shapiro-Wilks, Kolmogorov-Smirnov,

Sea X 1 , . . . , X n una m.a. de una población con media µ y varianza σ 2 . Se

Shapiro-Wilks. Este test fué propuesto por Samuel Sanford Shapiro

donde a1 , a2 , . . . , an son tales que

Dada una muestra aleatoria X 1 , . . . , X n , la Distribución Empı́rica de

Bajo la hipótesis nula de que la distribución acumulada de la muestra

Fig. 1: Valores Crı́ticos prueba KS

En el caso de una prueba de normalidad, Lilliefors propuso una modifi-

Fig. 2: Valores Crı́ticos prueba KS-Lilliefors

Usando el paquete R se tiene acceso a estas dos pruebas. Los comandos

Usando R-Commander se tiene acceso a la Prueba Shapiro-Wilks a

Fig. 3: Test Shapiro-Wilk en R Commander

ESTATURA MASA EDAD

TIEMPO PAPA VMATRI

Los Gráficos de estas mismas variables se muestran en la figura 4.

De la figura 4 se puede levemente evidenciar que las variables Estatu-

Fig. 4: Histogramas de variables Continuas

Suponga que se desea probar si las estaturas de los estudiantes se com-

Fig. 5: Resultado prueba Shapiro-Wilk para Estatura

Shapiro-Wilk normality test

El Valor p indica que no se puede rechazar H0 y por lo tanto la evidencia

Lilliefors (Kolmogorov-Smirnov) normality test

La conclusión es la misma. Ambas pruebas permiten concluir que las

Para la variable tiempo:

Fig. 6: Resultado prueba Shapiro-Wilk para Tiempo

> with(datos, shapiro.test(TIEMPO))

Shapiro-Wilk normality test

Lilliefors (Kolmogorov-Smirnov) normality test

Ambos valores p son extremadamente pequeños, lo que indica que la

Para la variable EDAD:

> with(datos, shapiro.test(EDAD))

Shapiro-Wilk normality test

En este caso se rechaza la hipótesis nula de que las Edades se distri-

Fig. 7: Pasos para obtener el QQplot de la Edad

Fig. 8: QQplot para la variable Edad

Para efectos de mantener una notación estándar en todo el documento,

Pruebas de Hipótesis para la media de una

El estadı́stico de prueba dependerá de si se conoce la varianza pobla-

La región de rechazo y los respectivos valores p se muestran a

La región de rechazo y los respectivos valores p se muestran a

H0 : µX = 168 vs Ha : µX > 168 .

El estadı́stico de prueba es:

De la muestra se obtienen los siguientes resultados:

n = 200 , X̄ = 168.3 , SX = 10.212 .

TC = 0.407 y V p = P (t(199) > 0.407) = 0.342 . Usando R-Commander:

Fig. 9: Prueba T con RC ommander

Fig. 10: Especificación de H0 y Ha

Fig. 11: Valor p de la prueba

El resultado mostrado en la figura 11 indica que no hay suficiente evi-

Pruebas de Hipótesis para la media de una

El estadı́stico de prueba es:

región de rechazo y Valor p:

H0 : Los tiempos de desplazamiento son normales

Fig. 12: Prueba de Normalidad para Tiempos

El Valor p registrado en esta prueba indica que se debe rechazar H0 y

Las estadı́sticas descriptivas básicas para esta variable:

Con estos datos se tiene que:

> with(datos, shapiro.test(MASA))

Shapiro-Wilk normality test

El Valor P de esta prueba es pequeño, por lo cual se puede rechazar