Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
Intervalos de confianza
Objetivos
Estudiar la propiedad reproductiva de determinadas variables aleatorias
1
2 1.1 Comportamiento de la suma de variables aleatorias normales iguales
> x<-sapply(1:10000,function(x){mean(rnorm(4,3,2))})
> hist(x,freq=F,breaks="Scott")
> curve(dnorm(x,3,2),col="blue",add=TRUE)
> curve(dnorm(x,3,1),col="red",add=TRUE)
> lines(c(5,3),dnorm(c(5,5),3,2),col="blue")
> lines(c(4,3),dnorm(c(4,4),3,1),col="red")
En la Figura 1.1 puede observarse como la distribución de las medias sigue una
normal de media igual a la de la población, pero más concentrada en torno a dicha
media, con una desviación tı́pica (error tı́pico) reducida a la mitad de la población
original.
> set.seed(1)
> x<-sapply(1:10000,function(x){mean(runif(2))})
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 3
Histogram of x
0.4
0.3
Density
0.2
0.1
0.0
0 2 4 6
Con esta instrucción hacemos que el programa tome 10000 muestras de 2 valores al
azar entre 0 y 1 y calcule su media. En la distribución uniforme, tenemos:
x2
Z 1 " #
1
µ= x dx = =
0 2 2
A continuación, representamos el histograma y añadimos la función de densidad
de la uniforme (en azul), usando la función curve(), y la triangular resultante (en
rojo).
> hist(x,freq=FALSE,breaks="Scott")
> curve(dunif(x),col="blue",add=TRUE)
> lines(c(0,.5,1),c(0,2,0), col="red")
En la llamada a la función lines(), los valores que aparecen con la primera c re-
presentan las abscisas y los valores que aparecen con la segunda c las ordenadas de
4 1.2 Teorema central del lı́mite
puntos que van a ser unidos. De esta forma aparecerán unidos los puntos (0,0), (0.5,2)
y (1,0).
El resultado puede verse en la Figura 1.3 y corresponde a una distribución triangu-
lar. La lı́nea azul corresponde a la gráfica de la función de dnesidad de la distribución
uniforme y que es:
(
1
b−a
a≤x≤b
f (x) =
0 En otro caso
Histogram of x
2.0
1.5
Density
1.0
0.5
0.0
> set.seed(1)
> x<-sapply(1:10000,function(x){mean(runif(30))})
> hist(x,freq=F,breaks="Scott")
> curve(dunif(x),col="blue",add=T)
> curve(dnorm(x,.5,1/(sqrt(12*30))),col="red",add=T)
Z 1
1 x2 1
µ= x dx = [ ]10 =
0 1−0 2 2
y una desviación tı́pica igual a
qR q q q
1 3 1 1 1
0 x2 dx − µ2 [ x3 ]10 − 1
4 3
− 4 12
σ= √ = √ = √ =√
30 30 30 30
Histogram of x
8
6
Density
4
2
0
> x<-sapply(1:10000,function(x){mean(rexp(40))})
> hist(x,freq=F,breaks="Scott")
> curve(dexp(x),col="blue",add=T)
> curve(dnorm(x,1,1/sqrt(40)),col="red",add=T)
Histogram of x
2.5
2.0
1.5
Density
1.0
0.5
0.0
> set.seed(1)
> x<-rexp(10000)
El vector
> y<-cumsum(x)/(1:10000)
obtenemos la gráfica de las medias para los sucesivos valores de n. Con la lı́nea roja
marcamos el lı́mite al que tiende la media, que es la media de la variable exponencial
original, 1.
Se puede apreciar la fuerte oscilación de la media al principio y cómo tiende a
estabilizarse para valores altos de n.
> set.seed(1)
> x<-rbinom(10000,1,1/6)
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 9
1.2
1.1
1.0
0.9
y
0.8
0.7
0.6
Index
Figura 1.6: Promedio progresivo de variables exponenciales. Puede verse como para
promedios de muchas observaciones el valor tiende a la media de la distribución de
la población, que es 1.
La expresión siguiente
> y<-cumsum(x)/(1:10000)
0.4
0.3
y
0.2
0.1
0.0
Index
Figura 1.7: Proporción de seises obtenidos en función del número de tiradas que se
promedian. Se aprecia como cuantas más tiradas se promedian más nos acercamos a
la probabilidad real de sacar un seis de 1/6.
> set.seed(1)
> t<-sapply(1:10000, function(x){rnorm(1)/sqrt(mean(rnorm(3)^2))})
> hist(t,breaks="Scott",freq=F,xlim=c(-10,10))
> curve(dt(x,3),-10,10, col="red",add=T)
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 11
Histogram of t
0.3
Density
0.2
0.1
0.0
−10 −5 0 5 10
Figura 1.8: Simulación de una distribución t de Student con 3 grados de libertad (en
rojo) a partir de variables aleatorias N(0,1).
+ m <- mean(x)
+ et <- sd(x)/sqrt(n)
+ c(m - qnorm(1 - alpha/2) * et, m + qnorm(1 -
+ alpha/2) * et)
+ }
> set.seed(123)
> ic<-intervalo(30, .05)
> ic
[1] TRUE
> plot(c(0.5,0.5),c(1,100),type="l",col="red",
+ xlab="Intervalo de confianza", ylab="")
> set.seed(111)
> for (i in 1:100){
+ lines(intervalo(30,.05),c(i,i),col="blue")
+ }
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 13
100
80
60
40
20
0
Intervalo de confianza
Figura 1.9: Intervalos de confianza para la media generados a partir de 100 muestras
(en azul) junto al valor real de la media (en rojo).
El resultado puede verse en la Figura 1.9. Puede observarse como, en este caso, fallan
8 de 100.
Repetimos el experimento cambiando la semilla para obtener otros intervalos dis-
tintos:
> plot(c(0.5,0.5),c(1,100),type="l",col="red",
+ xlab="Intervalo de confianza", ylab="")
> set.seed(123)
> for (i in 1:100){lines(intervalo(30,.05),c(i,i),col="blue")}
Como puede verse en la Figura 1.10, en este caso sólo fallan 5 de 100.
Repetimos de nuevo:
> plot(c(0.5,0.5),c(1,100),type="l",col="red",
+ xlab="Intervalo de confianza", ylab="")
> set.seed(321013)
> for (i in 1:100){lines(intervalo(30,.05),c(i,i),col="blue")}
14 1.5.2 Intervalos con la t de Student
> plot(c(0.5,0.5),c(1,100),type="l",col="red",
+ xlab="Intervalo de confianza", ylab="")
> set.seed(123)
> for (i in 1:100){lines(intervalo(30,.05),c(i,i),col="blue")}
100
80
60
40
20
0
Intervalo de confianza
Figura 1.10: Intervalos de confianza para la media generados a partir de 100 muestras
(en azul) junto al valor real de la media (en rojo).
100
80
60
40
20
0
Intervalo de confianza
> intervalot<-function(n,alpha){
+ x<-rnorm(n)
+ m<-mean(x)
+ et<-sd(x)/sqrt(n)
+ c(m-qt(1-alpha/2,df=n-1)*et,m+qt(1-alpha/2,df=n-1)*et)
+ }
que devuelve los intervalos de confianza construidos con la t de Student de acuerdo a
la fórmula
s s
(x̄ − tα/2,ν √ , x̄ + tα/2,ν √ , )
n n
Por ejemplo:
> set.seed(123)
> ict<-intervalot(5,.05)
> ict
16 1.5.2 Intervalos con la t de Student
[1] TRUE
Dibujamos el soporte del gráfico que representa la media por medio de una linea
roja. Con el ciclo for generamos 100 intervalos.
> plot(c(0,0),c(0,100),type="l",col="red",xlim=c(-1.5,1.5))
> set.seed(111)
> for (i in 1:100){lines(intervalot(5,.05),c(i,i),col="blue")}
100
80
60
c(0, 100)
40
20
0
c(0, 0)
Figura 1.12: Intervalos de confianza para la media generados a partir de 100 muestras
(en azul) junto al valor real de la media (en rojo). Hemos utilizado la fórmula con la
t de Student para calcular los intervalos en este caso.
Los intervalos generados pueden verse en la Figura 1.12. En este caso, es de notar
que los intervalos son de mayor amplitud que los que obtuvimos en el caso de la media
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 17
de las 30 uniformes por dos motivos: uno, porque las muestras son pequeñas (tamaño
5) y otro, porque, para el mismo nivel de significación, el valor de la t de Student da
valores mayores que la normal estándar.
Vemos que fallan 4 intervalos.
Si repetimos con
> plot(c(0,0),c(0,100),type="l",col="red",xlim=c(-1.5,1.5))
> set.seed(321)
> for (i in 1:100){lines(intervalot(5,.05),c(i,i),col="blue")}
40
20
0
c(0, 0)
Figura 1.13: Segunda réplica de los intervalos de confianza para la media generados
a partir de 100 muestras (en azul) junto al valor real de la media (en rojo). Hemos
utilizado la fórmula con la t de Student para calcular los intervalos en este caso.
18 1.6 Intervalos de confianza con el método bootstrap
> y
> set.seed(111)
> w<-sapply(1:10000,function(x){mean(sample(y,rep=TRUE))})
para calcular las medias de las 10000 muestras. Determinamos los cuantiles de las
medias con la siguientes instrucción:
> quantile(w,probs=c(.025,.975))
2.5% 97.5%
4.719929 6.475714
> hist(w,breaks="Scott")
> abline(v=4.71,col="red")
> abline(v=6.48,col="red")
El intervalo viene representado por las lı́neas rojas en el histograma. Fuera de ellas
queda el 5 % del área del histograma.
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 19
Histogram of w
800
600
Frequency
400
200
0
Figura 1.14: Histograma de las 10000 medias de las muestras obtenidas por el método
del bootstrap. Las lı́neas rojas representan los lı́mites de un intervalo al 95 %.
[1] 8.63 10.16 8.50 8.31 10.80 7.50 8.12 8.42 9.20 8.16
[11] 8.36 9.77 7.52 7.96 7.83 8.62 7.54 8.28 9.32 7.96
[21] 7.47
Solución:
Creamos una estructura de datos como hemos hecho antes y le llamamos Ejer-
cicio6. Escogemos Estadı́sticos/Medias/Test t para una muestra, como
aparece en la Figura 1.15.
Aparece una pantalla como la siguiente, en la que dejamos todo como está, excepto
que cambiamos el .95 por .98, como en la Figura 1.16.
data: Ejercicio6$x
t = 43.2663, df = 20, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
98 percent confidence interval:
8.000221 8.993113
sample estimates:
mean of x
8.496667
[1] 5.50 5.61 5.88 5.07 5.26 5.55 5.36 5.29 5.58 5.65 5.57 5.53
[13] 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.39 5.42 5.47 5.63 5.34
[25] 5.46 5.30 5.75 5.68 5.85
Considerando entonces dos muestras, la primera formada por las 6 primeras me-
didas y la segunda por las restantes:
Solución:
Cargamos RCommander. En Datos/Nuevo conjunto de datos (Figura 1.17)
damos un nombre al conjunto de datos que vamos a generar, por ejemplo Ejercicio5.
Nos aparecerá la ventana para introducir los datos. A la primera variable que
recogerá los datos le daremos el nombre de x (como en la Figura 1.18) y a la segunda
variable que recogerá la muestra a la que pertenece cada dato le daremos el nombre
de grupo. La primera variable la designaremos como numérica y la segunda como
de carácter. Introduciremos los datos en la primera columna y el grupo, 1 ó 2, en la
segunda. La tabla resultante aparece en la Figura 1.19.
A continuación convertimos la columna grupo en un factor con Datos/Modificar
variables del conjunto de datos activo/Convertir variable numérica
en factor... (Figura 1.20).
En una pantalla como la de la Figura 1.21 seleccionamos la variable que queremos
convertir en factor e indicamos que vamos a utilizar números. Después de completar
22 1.7 Intervalos de confianza con RCommander
estos pasos, nos aparecerá una pantalla como la de la Figura 1.22 y responderemos
que sı́.
Como buscamos un intervalo de confianza para la diferencia de medias, procederı́a-
mos como se indica en el gráfico siguiente, seleccionando Estadı́sticos(medias/Test
t para muestras independientes (Figura 1.23).
Para que aparezca activa esta instrucción en el R-commander se necesita por
un lado una variable cuantitativa y, por otro, una variable dicotómica (cualitativa o
factor, con sólo dos modalidades) que indique los dos grupos (por ejemplo, el sexo). Si
no tenemos los datos de esta forma tendrı́amos que poner la instrucción con comandos.
Nos aparece una pantalla como la de la Figura 1.24.
Podemos ver que aparecen seleccionados, por defecto, el grupo y la variable ex-
plicada. Por defecto, también está seleccionado “bilateral”. El nivel de confianza lo
ponemos al 0,95 y no suponemos varianzas iguales para el apartado a) del ejercicio.
La respuesta es la siguiente:
Figura 1.19: Tabla de datos con las variables x y grupo con RCommander.
Hay que fijarse en que al aumentar la información, ya que sabemos que las va-
rianzas son iguales, la amplitud del intervalo disminuye.
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 25
Solución:
> m1=6.5
> d1=0.9
> n1=36
> m2=6
> d2=0.8
> n2=49
> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
28 1.8 Ejercicios resueltos
> pr=pnorm(1,m,d,lower.tail=F)
la solución es 0.00400747867987543.
Ejercicio 2
Un ingeniero civil analiza la resistencia a la compresión del hormigón. Al tomar
una muestra aleatoria de 30 observaciones, se tiene que la media muestral es 3250 y
la desviación tı́pica es 25.
a. Construir un intervalo de confianza del 90 % para la resistencia a la compresión
promedio.
b. Construir un intervalo de confianza del 95 % para la resistencia a la compresión
promedio.
c. Construir un intervalo de confianza del 99 % para la resistencia a la compresión
promedio. Comparar el ancho de este intervalo de confianza con los anchos encontra-
dos en los apartados anteriores
d. Si queremos calcular un intervalo de confianza de anchura 10 con los datos que
tenemos, ¿que nivel de confianza tendrı́amos de que la verdadera media se encuentra
en ese intervalo?
Solución:
a Ic = x̄ ± tα/2 √sn
como el intervalo es del 95 % entonces: α = 0.05
>t_alpha2=qt(0.95,29)
>s=25; n=30
>c(3250-t_alpha2*(s/sqrt(n)), 3250+t_alpha2*(s/sqrt(n)))
b >t_alpha2=qt(0.975,29)
>s=25; n=30
>c(3250-t_alpha2*(s/sqrt(n)), 3250+t_alpha2*(s/sqrt(n)))
c >t_alpha2=qt(0.995,29)
>s=25; n=30
>c(3250-t_alpha2*(s/sqrt(n)), 3250+t_alpha2*(s/sqrt(n)))
Ejercicio 3
La variable aleatoria X que representa el número de cerezas en una empanada
tiene la siguiente distribución de probabilidad: X
X 4 5 6 7
P(X = x) 0.2 0.4 0.3 0.1
Solución:
> x=c(4,5,6,7)
> p=c(0.2,0.4,0.3,0.1)
> m=sum(x*p)
> v=sum(x^2*p)-m^2
> v2=v/36
> d2=sqrt(v2)
> pr=pnorm(5.5,m,d2)
> pr
[1] 0.9087888
30 1.8 Ejercicios resueltos
Ejercicio 4
La distribución de alturas de una cierta raza de perros terrier tiene una altura
media de 72 centı́metros y una desviación tı́pica de 10 centı́metros, mientras que la
distribución de alturas de una cierta raza poddle tiene una altura media de de 28
centı́metros con una desviación tı́pica de 5 centı́metros. Suponiendo que las medias
muestrales pueden medirse con cualquier grado de precisión, halla la probabilidad de
que la media muestral para una muestra aleatoria de alturas de 64 terriers exceda la
media muestral para una muestra aleatoria de alturas de 100 poodles como mucho en
44.2 centı́metros.
Solución:
> m1=72
> d1=10
> n1=64
> m2=28
> d2=5
> n2=100
> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
> pr=pnorm(44.2,m,d)
> pr
[1] 0.5590481
Ejercicio 5
La calificación media para estudiantes de primer año en una prueba de aptitudes,
en cierta universidad es 540, con una desviación tı́pica de 50. ¿Cuál es la probabilidad
de que dos grupos de estudiantes seleccionados aleatoriamente, consistentes en 32 y
50 estudiantes, respectivamente, difiera en sus calificaciones medias por:
a) Más de 20 puntos
Solución:
Apartado a):
> m1=540
> d1=50
> n1=32
> m2=540
> d2=50
> n2=50
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 31
> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
> pr=2*pnorm(20,m,d,lower.tail=F)
> pr
[1] 0.07724424
Apartado b)
> m1=540
> d1=50
> n1=32
> m2=540
> d2=50
> n2=50
> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
> pr=2*(pnorm(10,m,d)-pnorm(5,m,d))
> pr
[1] 0.2816954
Ejercicio 6
De las 1000 estrellas más brillantes de la vecindad solar, se toma una muestra
de tamaño 100. De ellas 40 presentan manchas en su superficie. Halla el intervalo de
confianza para el número total de estrellas, de entre esas 1000, que tienen manchas.
Usa un nivel de confianza de 0.95.
Solución:
Determinaremos el intervalo de confianza para la proporción.
En este caso no podemos utilizar la entrada correspondiente en RCommander, pues
está pensada para aquella situación en que los datos están en bruto: Cada columna
con los datos activos representa los resultados de una muestra, codificados con una
variable de tipo factor.
> pt7<-prop.test(40,100,correct=FALSE,conf.level=0.95)
> pt7
0.3094013 0.4979974
sample estimates:
p
0.4
Ejercicio 7
Los métodos para calcular la fuerza y requerimientos de la dureza deben ser con-
servadores, de tal forma que deben sobreestimar en vez de subestimar. La tasa de
éxitos de este método se puede medir con la probabilidad de una sobreestimación. El
artı́culo “Discrete Bracing Analysis for Light-Frame Word-Truss Compression Webs”
presenta los resultados de un experimento que se evaluó con un método usual (el
método de Plaut) para calcular la fuerza de soporte para una red de soportes de
compresión. En una muestra de 380 columnas cortas de prueba (cuatro a seis pies de
longitud), el método sobreestimó la fuerza para 304 de ellas, y en una muestra de 394
columnas largas de prueba (8 a 10 pies de longitud), el método sobreestimó la fuerza
de 360 de ellas. Determina un intervalo de confianza al 95 % para la diferencia entre
las tasas de éxito para columnas largas y columnas cortas. En este caso tampoco
podemos utilizar el menú RCommander, por el mismo motivo anterior. La instrucción
a utilizar es: