Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pract 3 R
Pract 3 R
Si se pusiera mu=5.8, el intervalo calculado sera el mismo, siempre que indiquemos alternative='two.sided'
(Bilateral).
El clculo anterior se basa en la distribucin t de Student para un estadstico asociado a la media muestral, que
es el ms adecuado si no se conoce la varianza poblacional. El intervalo de confianza bilateral se formula:
xm t(n-1, 1-/2) s/ n ,
1/15
con s la cuasi-desviacin tpica muestral, xm la media muestral, t(n-1, 1-/2) el valor tal que Pr(tn-1 <= t(n-1, 1/2)) = 1- /2, esto es, el valor de la variable tn-1 de Student de (n-1) grados de libertad que deja a su izquierda
un rea de valor (1- /2) bajo la funcin de densidad, o sea el cuantil (1- /2) de la t de Student con (n-1) g.l.
La funcin sd calcula la cuasi desviacin tpica de la muestra. Y la siguiente secuencia de instrucciones R , los
extremos del intervalo de confianza buscado:
> n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))
> s=sd(Pulsea1$Height, na.rm = TRUE)
>extrIzq=mean(Pulsea1$Height,na.rm=TRUE)-qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)
>extrDer=mean(Pulsea1$Height,na.rm=TRUE)+qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)
>extrIzq;extrDer
[1] 67.95957
[1] 69.47521
Se ha utilizado la funcin is.na(), que vale TRUE o FALSE al aplicarse a una secuencia de datos. Es muy
til cuando faltan algunos datos que aparecen reflejados en el conjunto de ellos con el valor NA. No ocurre
aqu, pero en previsin de que ocurra, se ofrece la anterior programacin. Con los datos de Pulsos, podemos
ver que para la variable Activity falta 1 dato, en la fila 54 del data.frame de Pulsos:
> sum(is.na(Pulsea1$Activity))
[1] 1
La funcin is.na() devuelve aqu un vector con 1 componente FALSE y 91 componentes TRUE. Al aplicar la
funcin sum() a este vector de valores lgicos (con un valor igual a 1 y 91 valores nulos), da la suma de los
1s, que es 1.
Caso de conocida:
Si se conociese la varianza de la poblacin de alturas, se podra construir un intervalo de confianza bilateral
basndose en la distribucin normal:
Recurdese que el intervalo de confianza al 95% es xm z1 / 2
z 2 * 2
1
E2
Vamos a hacer una pequea tabla que recoja la variacin del tamao de la muestra para un conjunto de valores
del margen de error , cuando sigma=3.7. Considerando un nivel de confianza del 95%, z1-/2 = z0,975 = 1,96 .
Recordemos cmo obtener con R el valor z0.975 =aprox 1.96:
Calcularemos una pequea tabla para diferentes valores de E, desde el valor inicial 0.5 al valor final 5 a
incrementos de 0.5, estarn contenidos en un vector de nombre Evector
Una secuencia de valores equidistantes se puede hacer con R:
> 2.3:8
[1] 2.3 3.3 4.3 5.3 6.3 7.3
> Evector=seq(0.5,5, by=0.5);Evector
[1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
> Elongi=seq(length=12,from=0.5, by=0.2);Elongi
[1] 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3 2.5 2.7
> sigma=3.7;
> cuantil=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);cuantil
[1] 1.959964
> Evector=seq(0.5,5, by=0.5);Evector
[1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
> nvector=cuantil^2*sigma^2/Evector^2;nvector;ceiling(nvector)
[1] 210.358285 52.589571 23.373143 13.147393
8.414331
5.843286
[8]
3.286848
2.597016
2.103583
[1] 211 53 24 14
9
6
5
4
3
3
4.293026
Los ltimos valores son los enteros para n en correspondencia con las componentes del vector Evector (la
funcin ceiling () da el entero mayor inmediato al valor del argumento.
As obtenemos cada Tamao de la muestra con su correspondiente Margen de Error. Para tener menor Margen
de error se ha de aumentar la muestra, como es natural.
Tamao de la muestra para estimar cuando es desconocida.
El Margen de error o semiamplitud del intervalo de confianza es en el caso de es desconocida :
E= t(n-1, 1-/2) s/ n .
Aqu no se puede despejar el tamao muestral n cuando se quiere elegir uno de antemano para garantizar un
error dado con un cierto nivel de confianza, pues s, cuasi desviacin tpica muestral. no es conocida a priori de
la extraccin de la muestra. Pero se podra hacer una tabla relacionando n y E, para diversos valores de s
considerando estimaciones de s que seas sensatas.
Ejemplos de Aplicacin de los Intervalos de Confianza para contrastar hiptesis
Ejemplo: Con el conjunto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente,
por medio de un intervalo de confianza al nivel de significacin =0.05, o de confianza del 95%, y utilizarlo
para contrastar la hiptesis de si la altura media de los hombres es de 171 cms. Vamos a generar un conjunto
de datos con las alturas de los hombres.
En principio debemos filtrar la altura por medio del Gnero para separar los hombres de las mujeres con la
secuencia::
>Datos >Conjunto de datos activos>Filtrar datos.
Como marcamos Incluir todas las variables, va a generar un
Data.frame con todos los datos referidos
slo a Hombres: Gender==Male
El nuevo conjunto de datos activo, que tiene siempre el tipo
data.frame, se llamar Alturahombres
El intervalo de confianza para la media de altiras ,
Emplando el R Commander, lo producen los mens:
3/15
Con el menu. > Estadsticos > Medias > Test t para una muestra
se genera la instrucin R y el resultado con el intervalo de confianza bilateral de la
media de pulsos con el 95% de confianza::
> t.test(Pulso1HombresFuman$Pulse1, alternative='two.sided', mu=0.0, conf.level=.95)
Ejemplo: Se espera que la resistencia en kg/cm 2 de cierto material suministrado por un proveedor se distribuya
normalmente, con media 220 y desviacin tpica 7.75. Se toma unaa muestra de 9 elementos y se obtiene: 203,
229, 215, 220, 223, 233, 208, 228, 209. Se pide: Hallar el intervalo de confianza del 95% para la media y
contrastar la hiptesis de =220, sin considerar conocida la desviacin tpica poblacional..
Vamos a interpretar el resultado del test de hiptesis con
hiptesis nula mu=220, y alternativa que mu<> 220
Las instrucciones R asociadas:
> t.test(Resistencia$Resis,
alternative='two.sided', mu=220,
conf.level=.95)
One Sample t-test
data: Resistencia$Resis
t = -0.3801, df = 8, p-value = 0.7138
alternative hypothesis: true mean is not equal to 220
95 percent confidence interval:
(210.5774
226.7560)
sample estimates:
mean of x:
218.6667
Este es el estimador puntual
Como el valor p-value=0.7138 es mayor que =0.05, nivel de significacin, no rechazamos la hiptesis nula.
Observando por otro lado el intervalo de confianza al 95%, como el valor 220 est en el intervalo, no
rechazamos que la resistencia media es 220.
Ejemplos propuestos:
1.-Calcular el intervalo de confianza para el peso medio de las mujeres con =0.05.
2.-Estudios recientes afirman que la altura media de las mujeres de esta poblacin es =167cms. A la vista
de los datos podemos aceptar dicha hiptesis?
3.-Calcular el intervalo de confianza para el Pulse1 medio de las mujeres que no fuman con =0.05
Smoke
28
# La function rbind agrupa la fila numrica 64 28 como iun vector fila para aplicarle la
# funcin prop.test para test de proporciones.
> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=FALSE)
1-sample proportions test without continuity correction
data: rbind(.Table), null probability 0.5
X-squared = 14.087, df = 1, p-value = 0.0001746
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5953573 0.7802631
sample estimates:
p
0.6956522
estimador puntual
Ejemplo: Calcular el intervalo de confianza para la proporcin de las mujeres que no fuman, con un nivel de
confianza del 95% (nivel de significacin =0.05)
Vamos a actuar utilizando slo instrucciones R: la siguiente secuencia de instrucciones y respuestas que
apoortan al intervalo de confianza buscado:
# Se seleccionan los datos
> Smokesmujer <- subset(Pulsea1, subset=Gender=="Female")
# Se genera una variable MiTabla con las frecuencias observadas
> MiTabla <- xtabs(~ Smokes , data= Smokesmujer )
# Se muestra el contenido de MiTabla
> MiTabla
Smokes
NonSmoker
Smoke
27
8
# Aplicar prop.test() function que da el intervalo deconfianza,
# aproximacin normal, sin correccin de continuidad
> prop.test(rbind(MiTabla),+ alternative='two.sided', p=.5, conf.level=.95,
+ correct=FALSE)
1-sample proportions test without continuity correction
data: rbind(MiTabla), null probability 0.5
X-squared = 10.3143, df = 1, p-value = 0.00132
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.6098268 0.8793412
sample estimates:
p
0.7714286
Ejemplo: Con los datos de Pulsos, calcular el intervalo de confianza para la proporcin de no fumadoras entre
las mujeres de baja actividad fsica. Es un caso en que el conjunto de datos que resulta es muy reducido. Se
puede obtener desde el R Commander utilizando el proceso de filtrado de datos, conservando la variable
Smokes y seleccionando los individuos con la restriccin (Gender==Female) &( Activity==Slight)
Al seleccionar el proceso para el
intervalo con el R Commander, aparece
el siguiente aviso en los mensajes de
error, indicando que los datos,
por su escasez, no son adecuados
para este tipo de anlisis basado en el modelo normal:
AVISO: Warning in prop.test(rbind(.Table),
alternative = "two.sided", p = 0.5, :
Chi-squared approximation may be incorrect
1-sample proportions test without continuity correction
data: rbind(.Table), null probability 0.5
X-squared = 1, df = 1, p-value = 0.3173
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.3006418 0.9544127
sample estimates:
p
0.75
Obsrvese que el proceso binomial exacto da como intervalo de confianza al 95%: (0.1941204 0.9936905),
que es muy poco informativo por la escasez de datos.
Ejemplo de proporcin con datos numricos (Libro Luceo&Gonzlez, pg 339).- Con objeto de estudiar la
resistencia a compresin de un determinado hormign, se han realizado 10 probetas que posteriormente han
sido sometidas a un ensayo de rotura, habindose observado las siguientes resistencias (medidas en Kg/cm2)
348.3, 378.9, 329.6, 379.3, 348.8, 367.7, 358.4, 378.2, 377.9, 341.8
Se pide:
Estimar puntualmente y mediante intervalos de confianza, a niveles de confianza 0,95 y 0.99 , la proporcin de
probetas cuya resistencia supera 350 kg/cm2
7/15
Resis=c(348.3,378.9,329.6,379.3,348.8,367.7,358.4,378.2,377.9,341.8)
N=length(Resis)
x=sum(as.numeric(Resis>350))
binom.test(x,N,alternative='two.sided', p=.5, conf.level=.95)
Exact binomial test
Si se trabaja con el intervalo expr. 7.6 Luceo&Glez, p316, que no es adecuado en este caso, por ser
N-x=10-6=4 , QUE ES MENOR O IGUAL QUE 5, veamos que sale de aplicar la citada expresin,
programndola en R:
> iz76=p-z*sqrt(p*(1-p)/N);iz76
[1] 0.2963637
> der76=p+z*sqrt(p*(1-p)/N);der76
[1] 0.9036363
Con nivel de confianza del 99%, intervalo con la distribucin F basado en la binomial exacta:
> binom.test(x,N,alternative='two.sided', p=.5, conf.level=.99)
Exact binomial test
data: x and N
number of successes = 6, number of trials = 10, p-value = 0.7539
alternative hypothesis: true probability of success is not equal to 0.5
99 percent confidence interval:
0.1909163 0.9232318
sample estimates:
probability of success
0.6
Y seleccionando dede el botn Conjunto de datos el data.frame Resiprop, Aadimos una columna a esta tabla:
>Datos>Modificar variables del conjunto de datos activo>Recodificar variables
Y ya en esta situacin:
> Estadsticos >Proporciones >Test de proporciones para una muestra
con la columna que tiene estructura de variable factor, con el binomial exacto el nivel de confianza 95%
> .Table <- xtabs(~ Resis350 , data= ResiProp )
> .Table
Resis350
Grande Peque
6
4
> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)
Exact binomial test
data: rbind(.Table)
number of successes = 6, number of trials = 10, p-value = 0.7539
alternative hypothesis: true probability of success is not equal to 0.5
9/15
Al nivel del factor que se considera xito y cuya proporcin se estudia, debe drsele un valor que
alfabticamente est antes que el no deseado, para que R haga el clculo adecuado. Aqu se ha elegido
Grande, que est antes que Peque.
Tamao de muestra (aleatoria simple) para estimar una proporcin
Llamamos error E al semiancho del intervalo de confianza para la proporcin. Basndose en la validez de la
aproximacin normal de la variable binomial, si se tiene idea del posible valor de la proporcin poblacional p
z2
p(1 p)
E2
z2
4 * E2
Qu tamao resultara en el caso de que se emplee una primera estimacin de la proporcin de valor 0.17 ?
> p=0.17
> n=ceiling(z^2*p*(1-p)/E^2);n
[1] 217
[1] 18.11387
> chi_iz=qchisq(c(0.975), df=n-1, lower.tail=TRUE)
> chi_der=qchisq(c(0.025), df=n-1, lower.tail=TRUE)
> iz=(n-1)*s^2/chi_iz;der=(n-1)*s^2/chi_der;iz;der
[1] 155.2355
[1] 1093.549
> izDtipica=sqrt(iz);
> derDtipica=sqrt(der);izDtipica;derDtipica
[1] 12.45935
[1] 33.06886
> print(c(iz,der));print(c(izDtipica,derDtipica))
[1] 155.2355 1093.5493
[1] 12.45935 33.06886
Como el valor de p-value es mayor que el nivel de significacin 0.05 por ejemplo, se puede admitir la
normalidad de los datos con un nivel de confianza del 95%.
var.equal=FALSE,
Conclusin: El p-value 9.778e-15 es ms pequeo que =0.05 que habamos fijado, luego no se acepta la
igualdad de alturas, la misma conclusin que hubiramos tenido si nos fijamos en el intervalo de confianza que
nos dice que la 2 media es mayor que la primera. Tngase en cuenta que R que ha hecho la diferencia de
medias entre Female (Mujeres) y Male (Hombres), atendiendo al orden alfabtico del factor Gender de los
datos.
Ejemplo 2, Datos Emparejados:
Para comparar dos materiales A y B para suela de zapatos deportivos, se eligen 10 nios al azar, y a cada uno
se le proporciona un par de zapatos, uno con la suela del material A y el otro con la suela del material B. A fin
de eliminar en lo posible la influencia de que un material vaya al pie derecho o al izquierdo, la asignacin de
orden dentro de cada par se hace al azar. Al cabo de 3 meses se mide una caracterstica en cada zapato que
refleja su comportamiento ante el uso, que se interpreta con que si la caracterstica medida tiene mayor valor
es porque ese tipo de material ofrece mejor calidad. As resulta:
Nio
1
2
3
4
5
6
7
8
9
10
MatA
13,2
8,2
10,9
14,3
10,7
6,6
9,5
10,8
8,8
13,3
MatB
14,0
8,8
11,2
14,2
11,8
6,4
9,8
11,3
9,3
13,6
Considerando los datos de los desgastes en 10 pares de zapatos segn el material A y B, efectuamos la
comparacin.
> t.test(Zapatillas$MatA, Zapatillas$MatB,
alternative='two.sided',
conf.level=.95, paired=TRUE)
Paired t-test
data: Zapatillas$MatA and Zapatillas$MatB
t = -3.3489, df = 9, p-value = 0.008539
alternative hypothesis:
true difference in means is not equal to 0
95 percent confidence interval:
-0.6869539 -0.1330461
sample estimates:
mean of the differences
-0.41
(-0,687; -0,133),
lo que indica que el valor de la caracterstica de uso (por tanto la satisfaccin) es mayor con el Material B que
con el A. Desde la visin de contraste de hiptesis, el reducido valor del p-valor: 0,009, indica que la hiptesis
de igualdad de medias se rechazara con un nivel de significacin del 5%, frente a la hiptesis de que los dos
materiales son igualmente satisfactorios.
Vamos a tratar los datos, errneamente respecto al diseo del experimento, comparando como si fuesen
independientes. Con R es necesario apilar el valor de la variable que mide la Calidad en una sola columna o
variable, e introducir otra columna que indica el tipo de Material. Se opera con los mens,
>Datos>Conjunto de datos activo>Apilar variables del conjunto de dats activo, con instrucciones R:
> ZapatillasApilados <- stack(Zapatillas[, c("MatA","MatB")])
> names(ZapatillasApilados) <- c("Calidad", "Material")
Es decir, que con ese nivel de confianza, la evidencia que aporta la muestra indica que las mujeres fuman ms
de los hombres.
14/15
Por otra parte, con el menu de RCommander: > Estadsticos > Varianzas > Test F para 2 varianzas
> tapply(Pulsea1$Height, Pulsea1$Gender,
var, na.rm=TRUE) #calcula varianzas de datos
Female
Male
6.566912 6.670739
> var.test(Height ~ Gender,
alternative='two.sided',
conf.level=.95, data=Pulsea1)
F test to compare two variances
data: Height by Gender
F = 0.9844, num df = 34,
denom df = 56, p-value = 0.9796
alternative hypothesis:
true ratio of variances is not equal to 1
95 percent confidence interval:
0.5467021 1.8561761
sample estimates:
ratio of variances
0.9844354
Como Pr(>F)=0.9247, mayor que 0.05., se acepta la igualdad de varianzas al nivel del 95%
Habra que contrastar la hiptesis normalidad de la altura de hombres y de mujeres.
15/15