Está en la página 1de 15

Prcticas de Estadstica con R

Prctica 3. Inferencia: Intervalos de Confianza y Contraste de Hiptesis


INTERVALOS DE CONFIANZA
Para poder realizar el clculo de los intervalos de confianza, as como de los contrastes de hiptesis referentes
a las distribuciones de probabilidad para representar el comportamiento estadstico de poblaciones, se supone
que la muestra de datos recogida es representativa del comportamiento de la poblacin, y una de las formas
ms usuales de garantizar esa representatividad es mediante muestras aleatorias simples.

Intervalo de confianza de la media poblacional


Vamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos tipos de
estimacin, la puntual se halla calculando la media de la muestra, y es de clculo sencillo, pero es difcil que
esta estimacin coincida con el verdadero valor de la media poblacional, aparte de no informar sobre el error
que cometemos. Otra forma es la estimacin por intervalos que consiste en calcular a partir de la muestra, un
intervalo con una probabilidad dada (nivel de confianza), de contener el valor de la media poblacional,
informndonos del error.
Ejemplo: Queremos estudiar la altura media de todos los individuos con un nivel de confianza de =0.05.
Utilizamos como conjunto de datos activo el de Pulso. Lo hemos asociado al data.frame Pulsea1.
Caso de desconocida:
Para calcular el intervalo de confianza empleamos la secuencia:se hace la secuencia:
>Estadsticos >Medias >Test t para una muestra

Para el intervalo de confianza bilateral hay que marcar


En Hiptesis alternativa >Media poblacional = 0,
Aunque hay un error y debera mostrar el texto Media poblacional <> 0, como hiptesis alternativa.
Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aqu del 95%
La instruccin R generada:

> t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.95)


One Sample t-test
data: Pulsea1$Height
t = 180.1207, df = 91, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
(67.95957 69.47521)
sample estimates:
mean of x 68.71739
Estimador puntual

Si se pusiera mu=5.8, el intervalo calculado sera el mismo, siempre que indiquemos alternative='two.sided'
(Bilateral).
El clculo anterior se basa en la distribucin t de Student para un estadstico asociado a la media muestral, que
es el ms adecuado si no se conoce la varianza poblacional. El intervalo de confianza bilateral se formula:
xm t(n-1, 1-/2) s/ n ,
1/15

con s la cuasi-desviacin tpica muestral, xm la media muestral, t(n-1, 1-/2) el valor tal que Pr(tn-1 <= t(n-1, 1/2)) = 1- /2, esto es, el valor de la variable tn-1 de Student de (n-1) grados de libertad que deja a su izquierda
un rea de valor (1- /2) bajo la funcin de densidad, o sea el cuantil (1- /2) de la t de Student con (n-1) g.l.
La funcin sd calcula la cuasi desviacin tpica de la muestra. Y la siguiente secuencia de instrucciones R , los
extremos del intervalo de confianza buscado:
> n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))
> s=sd(Pulsea1$Height, na.rm = TRUE)
>extrIzq=mean(Pulsea1$Height,na.rm=TRUE)-qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)
>extrDer=mean(Pulsea1$Height,na.rm=TRUE)+qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)
>extrIzq;extrDer
[1] 67.95957
[1] 69.47521

Se ha utilizado la funcin is.na(), que vale TRUE o FALSE al aplicarse a una secuencia de datos. Es muy
til cuando faltan algunos datos que aparecen reflejados en el conjunto de ellos con el valor NA. No ocurre
aqu, pero en previsin de que ocurra, se ofrece la anterior programacin. Con los datos de Pulsos, podemos
ver que para la variable Activity falta 1 dato, en la fila 54 del data.frame de Pulsos:
> sum(is.na(Pulsea1$Activity))
[1] 1

La funcin is.na() devuelve aqu un vector con 1 componente FALSE y 91 componentes TRUE. Al aplicar la
funcin sum() a este vector de valores lgicos (con un valor igual a 1 y 91 valores nulos), da la suma de los
1s, que es 1.
Caso de conocida:
Si se conociese la varianza de la poblacin de alturas, se podra construir un intervalo de confianza bilateral
basndose en la distribucin normal:
Recurdese que el intervalo de confianza al 95% es xm z1 / 2

, con xm la media muestral y el cuantil

1-/2 de la variable normal N(0,1). (1- /2=1-0.025=0.975).


Con el mismo ejemplo, suponiendo que la desviacin tpica poblacional es =3.7, la siguiente secuencia de
instruccions R nos da los extremos del intervalo de confianza:
> sigma=3.7;n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))
> extrIzq= mean(Pulsea1$Height,na.rm=TRUE) - qnorm(c(0.975), mean=0, sd=1,
lower.tail=TRUE)*sigma/sqrt(n)
> extrDer= mean(Pulsea1$Height,na.rm=TRUE) + qnorm(c(0.975), mean=0, sd=1,
lower.tail=TRUE)*sigma/sqrt(n)
> extrIzq;extrDer
[1] 67.96133
[1] 69.47345

Tamao de la muestra para estimar cuando es conocida.


Cuando la es conocida, se puede calcular el tamao de muestra aleatoria simple necesario para obtener un
intervalo de confianza con un margen de error dado.
Se llama margen de error, o simplemente error, E a la semiamplitud del intervalo de confianza.

Para el intervalo de confianza bilateral de la media, el margen de error es: E= z1


, y despejando de aqu el
n
2
tamao muestral: n

z 2 * 2
1

E2
Vamos a hacer una pequea tabla que recoja la variacin del tamao de la muestra para un conjunto de valores
del margen de error , cuando sigma=3.7. Considerando un nivel de confianza del 95%, z1-/2 = z0,975 = 1,96 .
Recordemos cmo obtener con R el valor z0.975 =aprox 1.96:

> qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)


[1] 1.959964
2/15

Calcularemos una pequea tabla para diferentes valores de E, desde el valor inicial 0.5 al valor final 5 a
incrementos de 0.5, estarn contenidos en un vector de nombre Evector
Una secuencia de valores equidistantes se puede hacer con R:
> 2.3:8
[1] 2.3 3.3 4.3 5.3 6.3 7.3
> Evector=seq(0.5,5, by=0.5);Evector
[1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
> Elongi=seq(length=12,from=0.5, by=0.2);Elongi
[1] 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3 2.5 2.7

La siguiente secuencia de instrucciones da la tabla de tamaos de muestra buscada:

> sigma=3.7;
> cuantil=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);cuantil
[1] 1.959964
> Evector=seq(0.5,5, by=0.5);Evector
[1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
> nvector=cuantil^2*sigma^2/Evector^2;nvector;ceiling(nvector)
[1] 210.358285 52.589571 23.373143 13.147393
8.414331
5.843286
[8]
3.286848
2.597016
2.103583
[1] 211 53 24 14
9
6
5
4
3
3

4.293026

Los ltimos valores son los enteros para n en correspondencia con las componentes del vector Evector (la
funcin ceiling () da el entero mayor inmediato al valor del argumento.
As obtenemos cada Tamao de la muestra con su correspondiente Margen de Error. Para tener menor Margen
de error se ha de aumentar la muestra, como es natural.
Tamao de la muestra para estimar cuando es desconocida.
El Margen de error o semiamplitud del intervalo de confianza es en el caso de es desconocida :

E= t(n-1, 1-/2) s/ n .
Aqu no se puede despejar el tamao muestral n cuando se quiere elegir uno de antemano para garantizar un
error dado con un cierto nivel de confianza, pues s, cuasi desviacin tpica muestral. no es conocida a priori de
la extraccin de la muestra. Pero se podra hacer una tabla relacionando n y E, para diversos valores de s
considerando estimaciones de s que seas sensatas.
Ejemplos de Aplicacin de los Intervalos de Confianza para contrastar hiptesis
Ejemplo: Con el conjunto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente,
por medio de un intervalo de confianza al nivel de significacin =0.05, o de confianza del 95%, y utilizarlo
para contrastar la hiptesis de si la altura media de los hombres es de 171 cms. Vamos a generar un conjunto
de datos con las alturas de los hombres.
En principio debemos filtrar la altura por medio del Gnero para separar los hombres de las mujeres con la
secuencia::
>Datos >Conjunto de datos activos>Filtrar datos.
Como marcamos Incluir todas las variables, va a generar un
Data.frame con todos los datos referidos
slo a Hombres: Gender==Male
El nuevo conjunto de datos activo, que tiene siempre el tipo
data.frame, se llamar Alturahombres
El intervalo de confianza para la media de altiras ,
Emplando el R Commander, lo producen los mens:
3/15

>Estadsticos > Medias >Test para una muestra.


Resultando en la Ventana de resultados de R Commander

One Sample t-test


data: Alturahombres$Height
t = 206.8254, df = 56, p-value < 2.2e-16
alternative hypothesis:
true mean is not equal to 0
95 percent confidence interval:
70.06908 71.43969
sample estimates:
mean of x
70.75439

Basndonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969)


consideremos ahora el contraste de hiptesis sobre que la altura media es 171 cms. Pasando esta altura media a
pulgadas, que es la informacin extrada de la tabla: 171/2.54= 67.3228 pulgadas.
Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues 67.3228 pulgadas no
est contenido en el intervalo de confianza calculado.
Ejemplo: Calcular el intervalo de confianza de la media del pulse1 de los hombres que fuman en los datos de
Pulsos. Vamos a filtrar los datos de de Pulsos generando un nuevo data.frame que recoja la variable Pulse1
con la restriccin de que se refiera a Hombres (Male) que Fuman.(Smoke) . La secuencia de filtrado_
> Datos >Conjunto de datos activo > Filtrar conjunto de datos activo
Llamamos al conjunto de dato activo resultante:
Pulso1HombresFuman,
que tiene 1 sola Variable (columna) con Pulse1,
con tantos datos como hombres fumadores.
La instruccin R asociada al filtrado:

> Pulso1HombresFuman <subset(Pulsea1,


subset=(Gender=="Male")&(Smokes=="Smoke"),
select=c(Pulse1))

Con el menu. > Estadsticos > Medias > Test t para una muestra
se genera la instrucin R y el resultado con el intervalo de confianza bilateral de la
media de pulsos con el 95% de confianza::
> t.test(Pulso1HombresFuman$Pulse1, alternative='two.sided', mu=0.0, conf.level=.95)

Ventana de resultados de R Commander:


data: Pulso1HombresFuman$Pulse1
t = 25.777, df = 19, p-value = 3.026e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
65.41875 76.98125
sample estimates:
mean of x
71.2
4/15

Ejemplo: Se espera que la resistencia en kg/cm 2 de cierto material suministrado por un proveedor se distribuya
normalmente, con media 220 y desviacin tpica 7.75. Se toma unaa muestra de 9 elementos y se obtiene: 203,
229, 215, 220, 223, 233, 208, 228, 209. Se pide: Hallar el intervalo de confianza del 95% para la media y
contrastar la hiptesis de =220, sin considerar conocida la desviacin tpica poblacional..
Vamos a interpretar el resultado del test de hiptesis con
hiptesis nula mu=220, y alternativa que mu<> 220
Las instrucciones R asociadas:
> t.test(Resistencia$Resis,
alternative='two.sided', mu=220,
conf.level=.95)
One Sample t-test
data: Resistencia$Resis
t = -0.3801, df = 8, p-value = 0.7138
alternative hypothesis: true mean is not equal to 220
95 percent confidence interval:
(210.5774
226.7560)
sample estimates:
mean of x:
218.6667
Este es el estimador puntual

Como el valor p-value=0.7138 es mayor que =0.05, nivel de significacin, no rechazamos la hiptesis nula.
Observando por otro lado el intervalo de confianza al 95%, como el valor 220 est en el intervalo, no
rechazamos que la resistencia media es 220.
Ejemplos propuestos:
1.-Calcular el intervalo de confianza para el peso medio de las mujeres con =0.05.
2.-Estudios recientes afirman que la altura media de las mujeres de esta poblacin es =167cms. A la vista
de los datos podemos aceptar dicha hiptesis?
3.-Calcular el intervalo de confianza para el Pulse1 medio de las mujeres que no fuman con =0.05

Intervalo de confianza para una proporcin


Ejemplo: En los datos de Pulsos, calcular el intervalo de confianza para la proporcin de los individuos que no
fuman, con un nivel de confianza del 95%, (nivel de significacin =0.05)
El programa realiza el intervalo de la proporcin de los individuos con un valor del factor atendiendo al orden
alfabtico de la denominacin de los niveles del factor. Aqu realizar el anlisis sobre los NonSmoker y no
sobre los Smoke. Si quisiramos calcular el intervalo de los fumadores, tendramos que cambiar el nombre a
los campos: Smoke=Fumador, NonSmoker= Nofumador. La secuencia de mens es:
> Estadsticos > Proporciones >Test de proporciones para una muestra

Para hace rl intervalo bilateral, se marca


Proporcin de la poblacin=p0,
(R debera escribir <> (distinto) en vez de = (igual)
El valor para la Hiptesis nula: p=0.5 por defecto,
no importa para intervalo de confianza, pero s para test.
Se elige Aproximacin normal si se considera admisible. Se generan las siguientes instrucciones y respuestas
5/15

en que incluimos nuestros comentarios:


#Genera una tabla de frecuencias
> .Table <- xtabs(~ Smokes , data= Pulsea1 )
> .Table
Smokes
NonSmoker
64

Smoke
28

# La function rbind agrupa la fila numrica 64 28 como iun vector fila para aplicarle la
# funcin prop.test para test de proporciones.
> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=FALSE)
1-sample proportions test without continuity correction
data: rbind(.Table), null probability 0.5
X-squared = 14.087, df = 1, p-value = 0.0001746
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5953573 0.7802631
sample estimates:
p
0.6956522
estimador puntual

- Con correccin de continuidad, intervalo con el 95% de confianza: 0.5897050 0.7850303

> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=TRUE)

- Con la distribucin binomial exacta, con el 95% de confianza: 0.5909669 0.7873276


> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)

Ejemplo: Calcular el intervalo de confianza para la proporcin de las mujeres que no fuman, con un nivel de
confianza del 95% (nivel de significacin =0.05)
Vamos a actuar utilizando slo instrucciones R: la siguiente secuencia de instrucciones y respuestas que
apoortan al intervalo de confianza buscado:
# Se seleccionan los datos
> Smokesmujer <- subset(Pulsea1, subset=Gender=="Female")
# Se genera una variable MiTabla con las frecuencias observadas
> MiTabla <- xtabs(~ Smokes , data= Smokesmujer )
# Se muestra el contenido de MiTabla
> MiTabla
Smokes
NonSmoker
Smoke
27
8
# Aplicar prop.test() function que da el intervalo deconfianza,
# aproximacin normal, sin correccin de continuidad
> prop.test(rbind(MiTabla),+ alternative='two.sided', p=.5, conf.level=.95,
+ correct=FALSE)
1-sample proportions test without continuity correction
data: rbind(MiTabla), null probability 0.5
X-squared = 10.3143, df = 1, p-value = 0.00132
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.6098268 0.8793412
sample estimates:
p
0.7714286

Con aproximacin normal y correccin de continuidad:


95 percent confidence interval:
0.5944798 0.8895560
6/15

Con modelo Binomial exacto:


> binom.test(rbind(MiTabla), alternative='two.sided', p=.5, conf.level=.95)
Exact binomial test
95 percent confidence interval:
0.5986367 0.8957896

Ejemplo: Con los datos de Pulsos, calcular el intervalo de confianza para la proporcin de no fumadoras entre
las mujeres de baja actividad fsica. Es un caso en que el conjunto de datos que resulta es muy reducido. Se
puede obtener desde el R Commander utilizando el proceso de filtrado de datos, conservando la variable
Smokes y seleccionando los individuos con la restriccin (Gender==Female) &( Activity==Slight)
Al seleccionar el proceso para el
intervalo con el R Commander, aparece
el siguiente aviso en los mensajes de
error, indicando que los datos,
por su escasez, no son adecuados
para este tipo de anlisis basado en el modelo normal:
AVISO: Warning in prop.test(rbind(.Table),
alternative = "two.sided", p = 0.5, :
Chi-squared approximation may be incorrect
1-sample proportions test without continuity correction
data: rbind(.Table), null probability 0.5
X-squared = 1, df = 1, p-value = 0.3173
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.3006418 0.9544127
sample estimates:
p
0.75

*** Lo que procede hacer es utilizar la distribucin binomial exacta, resultando:


> .Table <- xtabs(~ Smokes , data= F1 )
> .Table
Smokes
NonSmoker
Smoke
3
1
> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)
Exact binomial test
data: rbind(.Table)
number of successes = 3, number of trials = 4, p-value = 0.625
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.1941204 0.9936905
sample estimates:
probability of success
0.75

Obsrvese que el proceso binomial exacto da como intervalo de confianza al 95%: (0.1941204 0.9936905),
que es muy poco informativo por la escasez de datos.
Ejemplo de proporcin con datos numricos (Libro Luceo&Gonzlez, pg 339).- Con objeto de estudiar la
resistencia a compresin de un determinado hormign, se han realizado 10 probetas que posteriormente han
sido sometidas a un ensayo de rotura, habindose observado las siguientes resistencias (medidas en Kg/cm2)
348.3, 378.9, 329.6, 379.3, 348.8, 367.7, 358.4, 378.2, 377.9, 341.8
Se pide:
Estimar puntualmente y mediante intervalos de confianza, a niveles de confianza 0,95 y 0.99 , la proporcin de
probetas cuya resistencia supera 350 kg/cm2
7/15

Proceso con instrucciones R:


>
>
>
>

Resis=c(348.3,378.9,329.6,379.3,348.8,367.7,358.4,378.2,377.9,341.8)
N=length(Resis)
x=sum(as.numeric(Resis>350))
binom.test(x,N,alternative='two.sided', p=.5, conf.level=.95)
Exact binomial test

# Da el intervalo con la distrib F, expresin 7.8, libro Luceo&Gonzlez, p 317


data: x and N
number of successes = 6, number of trials = 10, p-value = 0.7539
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.2623781 0.8784477
sample estimates:
probability of success
0.6

Lo comprobamos hallando dicho intervalo con la citada expresin 7.8:


> iz=x/(x+(N+1-x)*qf(c(0.975), df1=2*N+2-2*x, df2=2*x, lower.tail=TRUE));iz
[1] 0.2623781
> der=(x+1)/(x+1+(N-x)/qf(c(0.975), df1=2*x+2, df2=2*N-2*x, lower.tail=TRUE));der
[1] 0.8784477

Si se emplea la aproximacin normal de la binomial sin correccin de continuidad y la expresin (7.7),


Luceo&Glez, p316 :
> Resis=c(348.3, 378.9,
329.6,
379.3,
348.8,
367.7,
358.4,
378.2,
377.9,
341.8)
> x=sum(as.numeric(Resis>350))
> N=length(Resis)
> prop.test(x,N,alternative='two.sided', p=.5, conf.level=.95, correct=FALSE)
1-sample proportions test without continuity correction
data: x out of N, null probability 0.5
X-squared = 0.4, df = 1, p-value = 0.5271
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.3126738 0.8318197
sample estimates:
p
0.6

Comprobamos la expresin (7.7), Luceo&Glez, p316 :


> z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)
> p=x/N;
> iz77=(p+z^2/(2*N)-z*sqrt(p*(1-p)/N+z^2/(4*N^2)))/(1+z^2/N);iz77
[1] 0.3126738
> der77=(p+z^2/(2*N)+z*sqrt(p*(1-p)/N+z^2/(4*N^2)))/(1+z^2/N);der77
[1] 0.8318197
Si se trabaja con la aproximacin normal de prop.test de R, y CON correccin de
continuidad:
> prop.test(x,N,alternative='two.sided', p=.5, conf.level=.95, correct=TRUE)
1-sample proportions test with continuity correction
data: x out of N, null probability 0.5
X-squared = 0.1, df = 1, p-value = 0.7518
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.2736697 0.8630694
sample estimates:
p
0.6
8/15

Si se trabaja con el intervalo expr. 7.6 Luceo&Glez, p316, que no es adecuado en este caso, por ser
N-x=10-6=4 , QUE ES MENOR O IGUAL QUE 5, veamos que sale de aplicar la citada expresin,
programndola en R:
> iz76=p-z*sqrt(p*(1-p)/N);iz76
[1] 0.2963637
> der76=p+z*sqrt(p*(1-p)/N);der76
[1] 0.9036363

Con nivel de confianza del 99%, intervalo con la distribucin F basado en la binomial exacta:
> binom.test(x,N,alternative='two.sided', p=.5, conf.level=.99)
Exact binomial test
data: x and N
number of successes = 6, number of trials = 10, p-value = 0.7539
alternative hypothesis: true probability of success is not equal to 0.5
99 percent confidence interval:
0.1909163 0.9232318
sample estimates:
probability of success
0.6

Se observa que el intervalo es ms ancho, al exigir mayor confianza.


Proceso con RCommander:
Se introducen los datos como activos en el data.frame ResiProp, bien a travs del gestor interactivo de tablas
de RCommander o mediante:
ResiProp=data.frame(Resis)

Y seleccionando dede el botn Conjunto de datos el data.frame Resiprop, Aadimos una columna a esta tabla:
>Datos>Modificar variables del conjunto de datos activo>Recodificar variables

Y ya en esta situacin:
> Estadsticos >Proporciones >Test de proporciones para una muestra
con la columna que tiene estructura de variable factor, con el binomial exacto el nivel de confianza 95%
> .Table <- xtabs(~ Resis350 , data= ResiProp )
> .Table
Resis350
Grande Peque
6
4
> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)
Exact binomial test
data: rbind(.Table)
number of successes = 6, number of trials = 10, p-value = 0.7539
alternative hypothesis: true probability of success is not equal to 0.5
9/15

95 percent confidence interval:


0.2623781 0.8784477
sample estimates:
probability of success
0.6

Al nivel del factor que se considera xito y cuya proporcin se estudia, debe drsele un valor que
alfabticamente est antes que el no deseado, para que R haga el clculo adecuado. Aqu se ha elegido
Grande, que est antes que Peque.
Tamao de muestra (aleatoria simple) para estimar una proporcin
Llamamos error E al semiancho del intervalo de confianza para la proporcin. Basndose en la validez de la
aproximacin normal de la variable binomial, si se tiene idea del posible valor de la proporcin poblacional p
z2

(con base en un muestreo previo, por ejemplo), el tamao de la muestra es: n

p(1 p)
E2

Si no se sabe nada de la magnitud de p, se elige una muestra de tamao:


n

z2

4 * E2

puesto que el valor p(1-p) es siempre no mayor que 1/4 .


Obsrvese que a menor error E que se desee, el tamao de la muestra debe ser mayor. Y a mayor nivel de
confianza ( o menor nivel de significacin), el tamao tambin crece.
Ejemplo: Qu tamao de muestra hay que elegir para estimar una proporcin de modo que el error en la
estimacin sea menor o igual que 0,05, con un nivel de confianza del 95%? (Emplear la aproximacin normal
con el criterio ms desfavorable).
> z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);z
[1] 1.959964
> E=0.05; n=ceiling(z^2/(4*E^2));n
[1] 385

Qu tamao resultara en el caso de que se emplee una primera estimacin de la proporcin de valor 0.17 ?
> p=0.17
> n=ceiling(z^2*p*(1-p)/E^2);n
[1] 217

Naturalmente, con ms informacin, se reduce el tamao de la muestra necesaria.

Intervalo de confianza para la varianza


R no da con un men especfico el intervalo de confianza para la varianza, aunque permite comparar varianzas
de dos poblaciones a partir de sendas muestras de cada una.
Admitiendo la hiptesis de normalidad en la poblacin de partida, se puede calcular el intervalo de confianza
para la varianza:
[(n-1)*s2/2(n-1, 1-/2) ; (n-1)*s2/2(n-1, /2) ], calculando cada componente de las frmulas.
Ejemplo.- Para el caso de las 10 probetas de hormign sometidas a un ensayo de rotura, con los datos de
resistencia en el vector columna Resis del data.frame ResiProp, se obtienen el intervalo de confianza de nivel
95% para la varianza y el de la desviacin tpica (los extremos son raz cuadrada de los de la varianza), como
sigue:
> n=length(ResiProp$Resis);s=sd(ResiProp$Resis);s
10/15

[1] 18.11387
> chi_iz=qchisq(c(0.975), df=n-1, lower.tail=TRUE)
> chi_der=qchisq(c(0.025), df=n-1, lower.tail=TRUE)
> iz=(n-1)*s^2/chi_iz;der=(n-1)*s^2/chi_der;iz;der
[1] 155.2355
[1] 1093.549
> izDtipica=sqrt(iz);
> derDtipica=sqrt(der);izDtipica;derDtipica
[1] 12.45935
[1] 33.06886
> print(c(iz,der));print(c(izDtipica,derDtipica))
[1] 155.2355 1093.5493
[1] 12.45935 33.06886

Para valorar la normalidad de los datos,


podemos utilizar la grfica de comparacin de
cuantiles con el modelo normal, al 95% de
confianza, que nos seala que es admisible.
Tambinpodemos valorar la normalidad de los datos mediante el test de Shapiro-Wilk:
>Estadsticos > Resmenes > Test de normalidad de Shapiro-Wilk
> shapiro.test(ResiProp$Resis)
Shapiro-Wilk normality test
data: ResiProp$Resis
W = 0.8833, p-value = 0.1425

Como el valor de p-value es mayor que el nivel de significacin 0.05 por ejemplo, se puede admitir la
normalidad de los datos con un nivel de confianza del 95%.

Intervalos de confianza y contraste para la diferencia de dos medias.


Se puede realizar la comparacin del comportamiento de dos variables aleatorias (de una caracterstica
cuantitativa presente en dos poblaciones diferentes), basndose en comparar sus medias a partir de los datos.
Puede ocurrir que se parta de dos muestras aleatorias simples de cada una, obtenidas independientemente una
de otra. Es el caso de DATOS INDEPENDIENTES, como las alturas (Height) de mujeres y hombres en los
datos de Pulsos.
Otro caso es que los DATOS estn EMPAREJADOS o APAREADOS, y aunque la obtencin de cada pareja
es independiente de la obtencin de las otras, los dos datos de cada pareja s estn relacionados y hay una
dependencia entre ellos.
Ejemplo1: Queremos saber ahora si hay diferencia significativa entre la altura media de hombres y mujeres con un nivel
de significacin =0.05.
La secuencia a seguir sera:

>Estadsticos >Medias >Test t para muestras independientes

Dejamos por defecto la opcin de contraste bilateral y


11/15

de no suponer varianzas iguales:


Ventana de resultados:
>
t.test(Height~Gender,
alternative='two.sided',
conf.level=.95,
data=Pulsos)
Welch Two Sample t-test
data: Height by Gender
t = -9.7007, df = 72.514, p-value = 9.778e-15
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-6.454559 -4.254213
sample estimates:
mean in group Female
mean in group Male
65.40000
70.75439

var.equal=FALSE,

Conclusin: El p-value 9.778e-15 es ms pequeo que =0.05 que habamos fijado, luego no se acepta la
igualdad de alturas, la misma conclusin que hubiramos tenido si nos fijamos en el intervalo de confianza que
nos dice que la 2 media es mayor que la primera. Tngase en cuenta que R que ha hecho la diferencia de
medias entre Female (Mujeres) y Male (Hombres), atendiendo al orden alfabtico del factor Gender de los
datos.
Ejemplo 2, Datos Emparejados:
Para comparar dos materiales A y B para suela de zapatos deportivos, se eligen 10 nios al azar, y a cada uno
se le proporciona un par de zapatos, uno con la suela del material A y el otro con la suela del material B. A fin
de eliminar en lo posible la influencia de que un material vaya al pie derecho o al izquierdo, la asignacin de
orden dentro de cada par se hace al azar. Al cabo de 3 meses se mide una caracterstica en cada zapato que
refleja su comportamiento ante el uso, que se interpreta con que si la caracterstica medida tiene mayor valor
es porque ese tipo de material ofrece mejor calidad. As resulta:
Nio
1
2
3
4
5
6
7
8
9
10

MatA
13,2
8,2
10,9
14,3
10,7
6,6
9,5
10,8
8,8
13,3

MatB
14,0
8,8
11,2
14,2
11,8
6,4
9,8
11,3
9,3
13,6

Considerando los datos de los desgastes en 10 pares de zapatos segn el material A y B, efectuamos la
comparacin.
> t.test(Zapatillas$MatA, Zapatillas$MatB,
alternative='two.sided',
conf.level=.95, paired=TRUE)
Paired t-test
data: Zapatillas$MatA and Zapatillas$MatB
t = -3.3489, df = 9, p-value = 0.008539
alternative hypothesis:
true difference in means is not equal to 0
95 percent confidence interval:
-0.6869539 -0.1330461
sample estimates:
mean of the differences
-0.41

El intervalo de confianza (nivel del 95%) para la diferencia de medias en el Material A y en el B es


12/15

(-0,687; -0,133),
lo que indica que el valor de la caracterstica de uso (por tanto la satisfaccin) es mayor con el Material B que
con el A. Desde la visin de contraste de hiptesis, el reducido valor del p-valor: 0,009, indica que la hiptesis
de igualdad de medias se rechazara con un nivel de significacin del 5%, frente a la hiptesis de que los dos
materiales son igualmente satisfactorios.
Vamos a tratar los datos, errneamente respecto al diseo del experimento, comparando como si fuesen
independientes. Con R es necesario apilar el valor de la variable que mide la Calidad en una sola columna o
variable, e introducir otra columna que indica el tipo de Material. Se opera con los mens,
>Datos>Conjunto de datos activo>Apilar variables del conjunto de dats activo, con instrucciones R:
> ZapatillasApilados <- stack(Zapatillas[, c("MatA","MatB")])
> names(ZapatillasApilados) <- c("Calidad", "Material")

Al aplicar el test de diferencia de medias de Calidad con datos independientes, resulta:


> t.test(Calidad~Material, alternative='two.sided',
conf.level=.95, var.equal=FALSE, data=ZapatillasApilados)
Welch Two Sample t-test
data: Calidad by Material
t = -0.3689, df = 17.987, p-value = 0.7165
alternative hypothesis:
true difference in means is not equal to 0
95 percent confidence interval:
-2.745046 1.925046
sample estimates:
mean in group MatA mean in group MatB
10.63
11.04

Obsrvese que el intervalo de confianza del 95%, (-2.745046 1.925046)


Incluye el valor cero, es decir, no se puede afirmar que
un material es de ms calidad que el otro.
El realizar el experimento con datos apareados aumenta la sensibilidad
del contraste, detectando mejor las diferencias entre los datos.

Intervalo de confianza y contraste para la diferencia de dos proporciones.


Se puede realizar la comparacin del comportamiento de dos variables aleatorias (de una caracterstica
CUALITATIVA presente en dos poblaciones diferentes), basndose en comparar sus proporciones a partir de
los datos.
Queremos determinar en los datos de Pulsos si hay diferencia significativa entre la proporcin de mujeres y
hombres que no fuman con un nivel del =0.05. La secuencia para el caso sera:

Observar en la ventana de dilogo que aparece


Diferencia: Female Male,
es decir, se va a considerar diferencia de proporciones
entre mujeres y hombres en relacin con
13/15

la variable Smokes (Fumar)


La secuencia de instrucciones R y respuestas es:
> .Table <- xtabs(~Gender+Smokes, data=Pulsea1)
> rowPercents(.Table)
Smokes
Gender
NonSmoker Smoke
Total
Count
Female
77.1
22.9
100
35
Male
64.9
35.1
100
57
> prop.test(.Table, alternative='two.sided', conf.level=.95, correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data: .Table
X-squared = 1.5321, df = 1, p-value = 0.2158
alternative hypothesis: two.sided
95 percent confidence interval:
-0.06398087 0.30859240
sample estimates:
prop 1
prop 2
0.7714286 0.6491228
> remove(.Table)

La diferencia (prop 1 - prop 2) ser el estimador puntual de la diferencia de proporciones:


p 1 p 2 = 0.7714286- 0.6491228=0.1223058
Observar que R ha calculado la diferencia entre proporciones de Mujeres y Hombres que NO FUMAN
(NonSmoker), dando prioridad al nivel NonSmoker que est alfabticamente antes que Smoke. Si se quisiera
estudiar la diferencia de proporciones de fumadores , habra que asignar otros valores a los niveles NonSmoker
y Smoke, de manera que est alfabticamente antes el de Fumador, por ejemplo: Fuma y NoFuma. Esto se
puede hacer con el RCommander con el men Recodificar variables... Ms sencillo desde los resultados
anteriores: cambiar el signo de los extremos del intervalo y complementar a 1 las proporciones calculadas.
La salida en la ventana de resultados nos muestra que el p-value = 0.2158 es mayor que el que nos habamos
fijado, 0.05, luego aceptamos la igualdad de proporciones. A su vez llegamos a la misma conclusin si nos
fijamos que el intervalo de confianza (-0.06398087, 0.30859240) contiene a la hiptesis nula Ho: p1-p2 = 0
Observar que si se realiza el proceso con un nivel de confianza del 80%, el intervalo que sale es .
(Aproximacin normal sin correccin de continuidad):
> .Table <- xtabs(~Gender+Smokes, data=Pulsea1)
> rowPercents(.Table)
Smokes
Gender
NonSmoker Smoke Total Count
Female
77.1 22.9
100
35
Male
64.9 35.1
100
57
> prop.test(.Table, alternative='two.sided', conf.level=.80, correct=FALSE)
2-sample test for equality of proportions without
continuity correction
data: .Table
X-squared = 1.5321, df = 1, p-value = 0.2158
alternative hypothesis: two.sided
80 percent confidence interval:
0.0004994808 0.2441120480
sample estimates:
prop 1
prop 2
0.7714286 0.6491228
> remove(.Table)

Es decir, que con ese nivel de confianza, la evidencia que aporta la muestra indica que las mujeres fuman ms
de los hombres.
14/15

Intervalo de confianza para el cociente de dos varianzas (datos independientes)


En este proceso, que es muy sensible a la hiptesis de normalidad de los datos, se quiere valorar si las
varianzas de dos poblaciones son iguales o no a partir de la evidencia de dos muestras.
Llamando teta=12/22 , se puede calcular un intervalo de este cociente de varianzas empleando la distribucin
F de Snedecor, hacindose notar que el proceso es poco robusto, es decir, muy sensible a la hiptesis de
normalidad d e los datos. (Luceo&Gonzlez, expresin 7.20, pg 328). El intervalo es:
(teta/F(n1-1,n2-1,1- /2), teta*F(n2-1,n1-1,1- /2)
siendo teta el cociente de cuasivarianzas muestrales.
Se calcula con las intrucciones R:
> cv1=sd(Pulsea1$Height[Pulsea1$Gender=="Female"])^2;
> cv2=sd(Pulsea1$Height[Pulsea1$Gender=="Male"])^2
> alfa=0.05
> n1=sum(Pulsea1$Gender=="Female");n2=sum(Pulsea1$Gender=="Male")
> print(c(n1,n2));print(c(cv1,cv2))
[1] 35 57
[1] 6.566912 6.670739
> teta=cv1/cv2;
> Fiz=qf(c(1-alfa/2), df1=n1-1, df2=n2-1, lower.tail=TRUE);
> Fder=qf(c(0.975), df1=n2-1, df2=n1-1, lower.tail=TRUE)
> iz=teta/Fiz;der=teta*Fder;print(c(iz,der))
[1] 0.5467021 1.8561761

# este es el intervalo de confianza

Por otra parte, con el menu de RCommander: > Estadsticos > Varianzas > Test F para 2 varianzas
> tapply(Pulsea1$Height, Pulsea1$Gender,
var, na.rm=TRUE) #calcula varianzas de datos
Female
Male
6.566912 6.670739
> var.test(Height ~ Gender,
alternative='two.sided',
conf.level=.95, data=Pulsea1)
F test to compare two variances
data: Height by Gender
F = 0.9844, num df = 34,
denom df = 56, p-value = 0.9796
alternative hypothesis:
true ratio of variances is not equal to 1
95 percent confidence interval:
0.5467021 1.8561761
sample estimates:
ratio of variances
0.9844354

La conclusin es que se acepta la igualdad de varianzas, pues el valor 1 est en el intervalo.


Tambin se puede aplicar el test de Levene de igualdad de varianzas, que es ms robusto que el de Bartlett:
> Estadsticos > Varianzas > Test de Levene
> levene.test(Pulsea1$Height, Pulsea1$Gender)
Levene's Test for Homogeneity of Variance
Df F value Pr(>F)
group 1
0.009 0.9247
90

Como Pr(>F)=0.9247, mayor que 0.05., se acepta la igualdad de varianzas al nivel del 95%
Habra que contrastar la hiptesis normalidad de la altura de hombres y de mujeres.
15/15

También podría gustarte