Está en la página 1de 32

1 | Práctica 4: Tª Central Lı́mite.

Intervalos de confianza

Objetivos
Estudiar la propiedad reproductiva de determinadas variables aleatorias

Estudiar e interpretar el teorema central del lı́mite

Estudiar e interpretar la ley de los grandes números

Construir e interpretar intervalos de confianza

Simular y analizar técnicas de remuestreo. Interpretar los resultados

1
2 1.1 Comportamiento de la suma de variables aleatorias normales iguales

1.1. Comportamiento de la suma de variables alea-


torias normales iguales
La media de n variables aleatorias normales de igual media
y desviación tı́pica, es otra variable aleatoria normal de igual
media y con desviación tı́pica la de la población dividida por
la raı́z cuadrada del tamaño de la muestra (error tı́pico de la
media).

1.1.1. Media de variables aleatorias Normales


Veamos el caso para n = 4, con media de la población de µ = 3 y desviación
tı́pica de la población σ = 2. Obtenemos una muestra de 10000 medias de cuatro
distribuciones normales:

> x<-sapply(1:10000,function(x){mean(rnorm(4,3,2))})

Representamos el histograma, con los intervalos de la fórmula de Scott y añadimos


la curva normal original en azul y la curva normal de las medias en rojo y dos lı́neas
que representan la desviación tı́pica:

> hist(x,freq=F,breaks="Scott")
> curve(dnorm(x,3,2),col="blue",add=TRUE)
> curve(dnorm(x,3,1),col="red",add=TRUE)
> lines(c(5,3),dnorm(c(5,5),3,2),col="blue")
> lines(c(4,3),dnorm(c(4,4),3,1),col="red")

En la Figura 1.1 puede observarse como la distribución de las medias sigue una
normal de media igual a la de la población, pero más concentrada en torno a dicha
media, con una desviación tı́pica (error tı́pico) reducida a la mitad de la población
original.

1.1.2. Media de variables aleatorias Uniformes


No todas las distribuciones tienen un comportamiento como el de la normal. Por
ejemplo, la media de dos distribuciones uniformes en [0,1] es una distribución trian-
gular en el mismo intervalo.
La distribución triangular queda definida por tres parámetros: el mı́nimo a, el
máximo, b, y el valor más probable c. La posición del valor más probable varı́a con
relación a los extremos, pudiendo ser la distribución simétrica o no. La Figura 1.2
muestra las caracterı́sticas más importantes de una distribución triangular.
Generamos 10000 medias:

> set.seed(1)
> x<-sapply(1:10000,function(x){mean(runif(2))})
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 3

Histogram of x

0.4
0.3
Density

0.2
0.1
0.0

0 2 4 6

Figura 1.1: Histograma de la media de observaciones de una distribución normal,


junto con la distribución de la población (en azul) y la de la media (en rojo).

Con esta instrucción hacemos que el programa tome 10000 muestras de 2 valores al
azar entre 0 y 1 y calcule su media. En la distribución uniforme, tenemos:

x2
Z 1 " #
1
µ= x dx = =
0 2 2
A continuación, representamos el histograma y añadimos la función de densidad
de la uniforme (en azul), usando la función curve(), y la triangular resultante (en
rojo).

> hist(x,freq=FALSE,breaks="Scott")
> curve(dunif(x),col="blue",add=TRUE)
> lines(c(0,.5,1),c(0,2,0), col="red")

En la llamada a la función lines(), los valores que aparecen con la primera c re-
presentan las abscisas y los valores que aparecen con la segunda c las ordenadas de
4 1.2 Teorema central del lı́mite

Figura 1.2: Descripción de una distribución triangular.

puntos que van a ser unidos. De esta forma aparecerán unidos los puntos (0,0), (0.5,2)
y (1,0).
El resultado puede verse en la Figura 1.3 y corresponde a una distribución triangu-
lar. La lı́nea azul corresponde a la gráfica de la función de dnesidad de la distribución
uniforme y que es:
(
1
b−a
a≤x≤b
f (x) =
0 En otro caso

1.2. Teorema central del lı́mite


La media de n variables aleatorias iid (independientes e igual-
mente distribuidas) se distribuye según una normal cuando n
tiende a infinito.

1.2.1. Media de variables aleatorias Uniformes


Veremos la distribución de la media de 30 distribuciones uniformes en [0,1]. To-
mamos 10000 medias:
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 5

Histogram of x

2.0
1.5
Density

1.0
0.5
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Figura 1.3: Histograma de la media de observaciones de una distribución uniforme,


junto con la distribución uniforme de la población (en azul) y la distribución triangular
de la media de observaciones (en rojo).

> set.seed(1)
> x<-sapply(1:10000,function(x){mean(runif(30))})

y representamos el histograma, la distribución uniforme original (en azul) y la curva


normal teórica correspondiente al teorema central del lı́mite (en rojo):

> hist(x,freq=F,breaks="Scott")
> curve(dunif(x),col="blue",add=T)
> curve(dnorm(x,.5,1/(sqrt(12*30))),col="red",add=T)

En la Figura 1.4 se puede apreciar que la media de las 30 distribuciones normales


sigue aproximadamente una distribución normal de igual media que la uniforme y con
error tı́pico igual a la desviación tı́pica de la uniforme dividida por la raı́z cuadrada de
30. Esto es, la curva Normal teórica correspondiente al Teorema Central del Lı́mite
se calcuları́a a partir de una media igual a
6 1.2.2 Media de variables aleatorias de una Exponencial

Z 1
1 x2 1
µ= x dx = [ ]10 =
0 1−0 2 2
y una desviación tı́pica igual a
qR q q q
1 3 1 1 1
0 x2 dx − µ2 [ x3 ]10 − 1
4 3
− 4 12
σ= √ = √ = √ =√
30 30 30 30

Histogram of x
8
6
Density

4
2
0

0.3 0.4 0.5 0.6 0.7

Figura 1.4: Histograma con la distribución de la media de 30 variables uniformes en


[0,1], junto con la distribución uniforme de la población (en azul) y la teórica del
promedio de 30 valores (en rojo).

1.2.2. Media de variables aleatorias de una Exponencial


Veremos una situación más extrema, la de una distribución exponencial de media
1. Hallaremos las medias de muestras de tamaño 40:
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 7

> x<-sapply(1:10000,function(x){mean(rexp(40))})
> hist(x,freq=F,breaks="Scott")
> curve(dexp(x),col="blue",add=T)
> curve(dnorm(x,1,1/sqrt(40)),col="red",add=T)

La Figura 1.5 muestra en azul la distribución original y, en rojo, la normal que


garantiza el T.C.L. Se aprecia que la aproximación con tamaños de muestra de 40 es
peor que la de la uniforme con 30. El que ésta sea simétrica ayuda a una convergencia
más rápida.

Histogram of x
2.5
2.0
1.5
Density

1.0
0.5
0.0

0.6 0.8 1.0 1.2 1.4 1.6

Figura 1.5: Histograma de simulaciones de la media de 40 variables aleatorias expo-


nenciales, junto con la distribución exponencial de la población (en azul) y la teórica
del promedio (en rojo).

1.3. Ley de los grandes números


La media de n variables aleatorias independientes e idéntica-
mente distribuidas que representan los resultados de una mues-
8 1.3.1 Distribución exponencial de media 1

tra de tamaño n, extraı́da de una población, converge en proba-


bilidad a la media de la población, cuando n tiene a infinito.

Nota: Se dice que una sucesión de números xn converge en probabilidad a un valor


c si

lı́m P r(|xn − c| > ) = 0; ∀ > 0


n→∞

1.3.1. Distribución exponencial de media 1


Veámoslo para una exponencial de media 1. Construimos un vector con 10000
valores aleatorios de la exponencial:

> set.seed(1)
> x<-rexp(10000)

El vector

> y<-cumsum(x)/(1:10000)

contiene, para la posición n, la suma de los n primeros elementos de x, dividida por


n. Esto es, la media de los n primeros números aleatorios. Es decir,
x1 x1 + x2 x1 + x2 + x3
y1 = , x2 = , y3 =
1 2 3
Con la siguiente instrucción

> plot(y, type="l")


> abline(h=1,col="red")

obtenemos la gráfica de las medias para los sucesivos valores de n. Con la lı́nea roja
marcamos el lı́mite al que tiende la media, que es la media de la variable exponencial
original, 1.
Se puede apreciar la fuerte oscilación de la media al principio y cómo tiende a
estabilizarse para valores altos de n.

1.3.2. Distribución de la proporción de éxitos


La proporción de éxitos al repetir un experimento aleatorio que tiene probabilidad
p de éxito, tiende (en probabilidad) a la probabilidad de éxito p, cuando n tiende a
infinito. Simulemos las proporciones de seises que salen al tirar un dado.
Generamos 10000 tiradas. El resultado es 1 con probabilidad 1/6, y 0 con proba-
bilidad 5/6:

> set.seed(1)
> x<-rbinom(10000,1,1/6)
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 9

1.2
1.1
1.0
0.9
y

0.8
0.7
0.6

0 2000 4000 6000 8000 10000

Index

Figura 1.6: Promedio progresivo de variables exponenciales. Puede verse como para
promedios de muchas observaciones el valor tiende a la media de la distribución de
la población, que es 1.

La expresión siguiente

> y<-cumsum(x)/(1:10000)

da, para la posición n, el cociente entre el número de seises acumulados hasta n,


dividido por n, esto es: la proporción de seises hasta la tirada n.
El siguiente código nos da la gráfica deseada y en rojo añade la probabilidad, 1/6,
a la que se tiende.

> plot(y, type="l")


> abline(h=1/6,col="red")

En la Figura 1.7 se puede apreciar la fuerte oscilación al principio y cómo se estabiliza


al aumentar n.
10 1.4 Obtención de una distribución de Student a partir de Normales

0.4
0.3
y

0.2
0.1
0.0

0 2000 4000 6000 8000 10000

Index

Figura 1.7: Proporción de seises obtenidos en función del número de tiradas que se
promedian. Se aprecia como cuantas más tiradas se promedian más nos acercamos a
la probabilidad real de sacar un seis de 1/6.

1.4. Obtención de una distribución de Student a


partir de Normales
Construiremos una distribución de Student de tres grados de libertad (para otros
grados de libertad es análogo). Tal distribución viene dada por
x
t3 = q
y 2 +z 2 +w2
3

donde x, y, z, w son N(0,1) e independientes.

> set.seed(1)
> t<-sapply(1:10000, function(x){rnorm(1)/sqrt(mean(rnorm(3)^2))})
> hist(t,breaks="Scott",freq=F,xlim=c(-10,10))
> curve(dt(x,3),-10,10, col="red",add=T)
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 11

En La Figura 1.8 puede verse el resultado. En rojo se ha representado la distribución


de Student de 3 grados de libertad, obtenida directamente con dt().

Histogram of t
0.3
Density

0.2
0.1
0.0

−10 −5 0 5 10

Figura 1.8: Simulación de una distribución t de Student con 3 grados de libertad (en
rojo) a partir de variables aleatorias N(0,1).

1.5. Intervalos de confianza


1.5.1. Intervalos de confianza con una Normal
Cuando construimos un intervalo de confianza al 95 %, significa que de cada 100
intervalos que construimos con el método elegido, en promedio, 95 contendrán la
media de la población. Veámoslo para la media de una distribución uniforme en [0,1],
a partir de muestras de tamaño 30, con un nivel de confianza del 95 %.
Construiremos primero la función intervalo que genera los intervalos de confian-
za:
> intervalo <- function(n, alpha) {
+ x <- runif(n)
12 1.5.1 Intervalos de confianza con una Normal

+ m <- mean(x)
+ et <- sd(x)/sqrt(n)
+ c(m - qnorm(1 - alpha/2) * et, m + qnorm(1 -
+ alpha/2) * et)
+ }

Esta función genera n observaciones de una uniforme en [0, 1] y calcula un intervalo


de confianza usando los cuantiles de distribución normal correspondiente. Recuerda
que el intervalo de confianza es
!
s s
x − zα/2 √ , x + zα/2 √
n n
Para comprobar si un valor está dentro de un intervalo podemos utilizar la si-
guiente función:

> dentro<-function(mu, intconf)


+ {
+ ( (intconf[1]<mu) & (mu<intconf[2]) )
+ }

El siguiente ejemplo genera un intervalo de confianza y comprueba si la media


real (0’5) está dentro o no:

> set.seed(123)
> ic<-intervalo(30, .05)
> ic

[1] 0.4681394 0.6766609

> dentro(0.5, ic)

[1] TRUE

A continuación construimos la base del gráfico, donde la media la hemos repre-


sentado con una lı́nea roja, y después, con un ciclo for, mostramos 100 intervalos de
confianza para la media a alturas crecientes. Los intervalos vienen representados por
lı́neas azules horizontales.

> plot(c(0.5,0.5),c(1,100),type="l",col="red",
+ xlab="Intervalo de confianza", ylab="")
> set.seed(111)
> for (i in 1:100){
+ lines(intervalo(30,.05),c(i,i),col="blue")
+ }
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 13

100
80
60
40
20
0

0.3 0.4 0.5 0.6 0.7

Intervalo de confianza

Figura 1.9: Intervalos de confianza para la media generados a partir de 100 muestras
(en azul) junto al valor real de la media (en rojo).

El resultado puede verse en la Figura 1.9. Puede observarse como, en este caso, fallan
8 de 100.
Repetimos el experimento cambiando la semilla para obtener otros intervalos dis-
tintos:

> plot(c(0.5,0.5),c(1,100),type="l",col="red",
+ xlab="Intervalo de confianza", ylab="")
> set.seed(123)
> for (i in 1:100){lines(intervalo(30,.05),c(i,i),col="blue")}

Como puede verse en la Figura 1.10, en este caso sólo fallan 5 de 100.
Repetimos de nuevo:

> plot(c(0.5,0.5),c(1,100),type="l",col="red",
+ xlab="Intervalo de confianza", ylab="")
> set.seed(321013)
> for (i in 1:100){lines(intervalo(30,.05),c(i,i),col="blue")}
14 1.5.2 Intervalos con la t de Student

> plot(c(0.5,0.5),c(1,100),type="l",col="red",
+ xlab="Intervalo de confianza", ylab="")
> set.seed(123)
> for (i in 1:100){lines(intervalo(30,.05),c(i,i),col="blue")}
100
80
60
40
20
0

0.3 0.4 0.5 0.6 0.7

Intervalo de confianza

Figura 1.10: Intervalos de confianza para la media generados a partir de 100 muestras
(en azul) junto al valor real de la media (en rojo).

EL resultado puede verse en la Figura 1.11 y ahora fallan 3 de 100.


En promedio, hasta ahora, llevamos alrededor de 5 fallos por 100. A largo plazo
acertaremos, en promedio, con intervalos que contengan la media en el 95 % de los
casos.

1.5.2. Intervalos con la t de Student


Veamos los intervalos de confianza en el caso en que interviene en el mismo la dis-
tribución de Student. Queremos ver el comportamiento de los intervalos de confianza
para la media de cinco normales estándar.
Construimos la función intervalot:
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 15

100
80
60
40
20
0

0.3 0.4 0.5 0.6 0.7

Intervalo de confianza

Figura 1.11: Segunda réplica de la simulación de intervalos de confianza para la media


generados a partir de 100 muestras (en azul) junto al valor real de la media (en rojo).

> intervalot<-function(n,alpha){
+ x<-rnorm(n)
+ m<-mean(x)
+ et<-sd(x)/sqrt(n)
+ c(m-qt(1-alpha/2,df=n-1)*et,m+qt(1-alpha/2,df=n-1)*et)
+ }
que devuelve los intervalos de confianza construidos con la t de Student de acuerdo a
la fórmula
s s
(x̄ − tα/2,ν √ , x̄ + tα/2,ν √ , )
n n
Por ejemplo:
> set.seed(123)
> ict<-intervalot(5,.05)
> ict
16 1.5.2 Intervalos con la t de Student

[1] -0.8134464 1.2005869

> dentro(.05, ict)

[1] TRUE

Dibujamos el soporte del gráfico que representa la media por medio de una linea
roja. Con el ciclo for generamos 100 intervalos.

> plot(c(0,0),c(0,100),type="l",col="red",xlim=c(-1.5,1.5))
> set.seed(111)
> for (i in 1:100){lines(intervalot(5,.05),c(i,i),col="blue")}
100
80
60
c(0, 100)

40
20
0

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

c(0, 0)

Figura 1.12: Intervalos de confianza para la media generados a partir de 100 muestras
(en azul) junto al valor real de la media (en rojo). Hemos utilizado la fórmula con la
t de Student para calcular los intervalos en este caso.

Los intervalos generados pueden verse en la Figura 1.12. En este caso, es de notar
que los intervalos son de mayor amplitud que los que obtuvimos en el caso de la media
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 17

de las 30 uniformes por dos motivos: uno, porque las muestras son pequeñas (tamaño
5) y otro, porque, para el mismo nivel de significación, el valor de la t de Student da
valores mayores que la normal estándar.
Vemos que fallan 4 intervalos.
Si repetimos con

> plot(c(0,0),c(0,100),type="l",col="red",xlim=c(-1.5,1.5))
> set.seed(321)
> for (i in 1:100){lines(intervalot(5,.05),c(i,i),col="blue")}

En la Figura 1.13 puede verse como ahora obtenemos 1 fallo.


A largo plazo acertaremos en el 95 % de los casos con un intervalo que contenga
la media poblacional.
100
80
60
c(0, 100)

40
20
0

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

c(0, 0)

Figura 1.13: Segunda réplica de los intervalos de confianza para la media generados
a partir de 100 muestras (en azul) junto al valor real de la media (en rojo). Hemos
utilizado la fórmula con la t de Student para calcular los intervalos en este caso.
18 1.6 Intervalos de confianza con el método bootstrap

1.6. Intervalos de confianza con el método boots-


trap
Se parte de una muestra de tamaño n. A continuación se simulan extracciones con
repetición de muestras del mismo tamaño n. Se hallan las medias de estas muestras y
se determina su distribución aproximada mediante la simulación. Luego se determina
un intervalo de confianza. En este método no suponemos una población con una
distribución determinada, sólo confiamos en que la muestra sea representativa de la
población. Sea la muestra

> y

[1] 7.69 4.97 4.56 6.49 4.34 6.24 4.45

Realizamos 10000 extracciones con repetición, hallamos sus medias y determinare-


mos los cuantiles correspondientes al 0,025 y 0,975 que dan un intervalo de confianza
del 95 %. Las instrucción serı́an:

> set.seed(111)
> w<-sapply(1:10000,function(x){mean(sample(y,rep=TRUE))})

para calcular las medias de las 10000 muestras. Determinamos los cuantiles de las
medias con la siguientes instrucción:

> quantile(w,probs=c(.025,.975))

2.5% 97.5%
4.719929 6.475714

Estos dos valores dan el intervalo de confianza al 95 % de la media poblacional por el


método bootstrap.
En la Figura 1.14 hemos representado el histograma y los lı́mites del intervalo de
confianza:

> hist(w,breaks="Scott")
> abline(v=4.71,col="red")
> abline(v=6.48,col="red")

El intervalo viene representado por las lı́neas rojas en el histograma. Fuera de ellas
queda el 5 % del área del histograma.
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 19

Histogram of w

800
600
Frequency

400
200
0

4.5 5.0 5.5 6.0 6.5 7.0

Figura 1.14: Histograma de las 10000 medias de las muestras obtenidas por el método
del bootstrap. Las lı́neas rojas representan los lı́mites de un intervalo al 95 %.

1.7. Intervalos de confianza con RCommander

Intervalo de confianza para la media de una población


En la tabla siguiente se dan las medidas originales realizadas por James Short
en 1798 para la paralaje del sol (ángulo subtendido por la Tierra visto desde el Sol.
Estas medidas permitieron la primera determinación de la distancia Tierra-Sol:

[1] 8.63 10.16 8.50 8.31 10.80 7.50 8.12 8.42 9.20 8.16
[11] 8.36 9.77 7.52 7.96 7.83 8.62 7.54 8.28 9.32 7.96
[21] 7.47

Calcula el intervalo de confianza del 98 % para la media.


20 1.7 Intervalos de confianza con RCommander

Solución:
Creamos una estructura de datos como hemos hecho antes y le llamamos Ejer-
cicio6. Escogemos Estadı́sticos/Medias/Test t para una muestra, como
aparece en la Figura 1.15.

Figura 1.15: Test de la t de Student con RCommander.

Aparece una pantalla como la siguiente, en la que dejamos todo como está, excepto
que cambiamos el .95 por .98, como en la Figura 1.16.

Figura 1.16: Test de la t de Student con RCommander.

Los resultados son:

One Sample t-test


Práctica 4: Tª Central Lı́mite. Intervalos de confianza 21

data: Ejercicio6$x
t = 43.2663, df = 20, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
98 percent confidence interval:
8.000221 8.993113
sample estimates:
mean of x
8.496667

El intervalo de confianza es (8.000221, 8.993113)

Intervalo de confianza para la diferencia de medias de dos


poblaciones
Supongamos que las medias de Cavendish de la densidad de La Tierra se dividen
en dos grupos dependiendo del cable usado en la balanza de torsión:

[1] 5.50 5.61 5.88 5.07 5.26 5.55 5.36 5.29 5.58 5.65 5.57 5.53
[13] 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.39 5.42 5.47 5.63 5.34
[25] 5.46 5.30 5.75 5.68 5.85

Considerando entonces dos muestras, la primera formada por las 6 primeras me-
didas y la segunda por las restantes:

a) Calcula un intervalo de confianza del 95 % para la diferencia de medias entre


ambas muestras.

b) ¿Qué intervalo de confianza para la diferencia de medias se obtendrı́a si se hiciese


la hipótesis de que las dos varianzas poblacionales son iguales?

Solución:
Cargamos RCommander. En Datos/Nuevo conjunto de datos (Figura 1.17)
damos un nombre al conjunto de datos que vamos a generar, por ejemplo Ejercicio5.
Nos aparecerá la ventana para introducir los datos. A la primera variable que
recogerá los datos le daremos el nombre de x (como en la Figura 1.18) y a la segunda
variable que recogerá la muestra a la que pertenece cada dato le daremos el nombre
de grupo. La primera variable la designaremos como numérica y la segunda como
de carácter. Introduciremos los datos en la primera columna y el grupo, 1 ó 2, en la
segunda. La tabla resultante aparece en la Figura 1.19.
A continuación convertimos la columna grupo en un factor con Datos/Modificar
variables del conjunto de datos activo/Convertir variable numérica
en factor... (Figura 1.20).
En una pantalla como la de la Figura 1.21 seleccionamos la variable que queremos
convertir en factor e indicamos que vamos a utilizar números. Después de completar
22 1.7 Intervalos de confianza con RCommander

Figura 1.17: Creación de un nuevo conjunto de datos con RCommander.

estos pasos, nos aparecerá una pantalla como la de la Figura 1.22 y responderemos
que sı́.
Como buscamos un intervalo de confianza para la diferencia de medias, procederı́a-
mos como se indica en el gráfico siguiente, seleccionando Estadı́sticos(medias/Test
t para muestras independientes (Figura 1.23).
Para que aparezca activa esta instrucción en el R-commander se necesita por
un lado una variable cuantitativa y, por otro, una variable dicotómica (cualitativa o
factor, con sólo dos modalidades) que indique los dos grupos (por ejemplo, el sexo). Si
no tenemos los datos de esta forma tendrı́amos que poner la instrucción con comandos.
Nos aparece una pantalla como la de la Figura 1.24.
Podemos ver que aparecen seleccionados, por defecto, el grupo y la variable ex-
plicada. Por defecto, también está seleccionado “bilateral”. El nivel de confianza lo
ponemos al 0,95 y no suponemos varianzas iguales para el apartado a) del ejercicio.
La respuesta es la siguiente:

> t.test(dej5$x[dej5$grupo=="a"], dej5$x[dej5$grupo=="b"])

Welch Two Sample t-test

data: dej5$x[dej5$grupo == "a"] and dej5$x[dej5$grupo == "b"]


Práctica 4: Tª Central Lı́mite. Intervalos de confianza 23

Figura 1.18: Creación de la variable x con RCommander.

t = -0.0422, df = 6.237, p-value = 0.9677


alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.3007638 0.2904739
sample estimates:
mean of x mean of y
5.478333 5.483478

Para el apartado b) suponemos la igualdad de varianzas, porque ası́ nos lo dice el


ejercicio (Figura 1.25). Los resultados son:

> t.test(dej5$x[dej5$grupo=="a"], dej5$x[dej5$grupo=="b"], var.equal=TRUE)

Two Sample t-test

data: dej5$x[dej5$grupo == "a"] and dej5$x[dej5$grupo == "b"]


t = -0.0533, df = 27, p-value = 0.9579
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.2031417 0.1928519
sample estimates:
mean of x mean of y
5.478333 5.483478
24 1.7 Intervalos de confianza con RCommander

Figura 1.19: Tabla de datos con las variables x y grupo con RCommander.

Figura 1.20: Modificar el conjunto de datos activo con RCommander.

Hay que fijarse en que al aumentar la información, ya que sabemos que las va-
rianzas son iguales, la amplitud del intervalo disminuye.
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 25

Figura 1.21: Modificar el conjunto de datos activo con RCommander.

Figura 1.22: Modificar el conjunto de datos activo con RCommander.


26 1.7 Intervalos de confianza con RCommander

Figura 1.23: Test de la t de Student con RCommander.

Figura 1.24: Test de la t de Student con RCommander.


Práctica 4: Tª Central Lı́mite. Intervalos de confianza 27

Figura 1.25: Test de la t de Student con RCommander.

1.8. Ejercicios resueltos


Ejercicio 1
Los cinescopios de televisión del fabricante A tienen una duración media de 6.5
años y una desviación tı́pica de 0.9 años, mientras que los del fabricante B tienen una
vida media de 6 años con una desviación tı́pica de 0.8 años. ¿Cuál es la probabilidad
de que una muestra aleatoria de 36 cinescopios del fabricante A tenga una duración
media que sea al menos un año más que la duración media de una muestra de 49
cinescopios del fabricante B?

Solución:
> m1=6.5
> d1=0.9
> n1=36
> m2=6
> d2=0.8
> n2=49

Obtenemos la diferencia de medias:

> m=m1-m2

y el error tı́pico de la diferencia de medias muestrales para los tamaños dados

> d=sqrt(d1^2/n1+d2^2/n2)
28 1.8 Ejercicios resueltos

la probabilidad de que m sea mayor que 1 es

> pr=pnorm(1,m,d,lower.tail=F)

la solución es 0.00400747867987543.

Ejercicio 2
Un ingeniero civil analiza la resistencia a la compresión del hormigón. Al tomar
una muestra aleatoria de 30 observaciones, se tiene que la media muestral es 3250 y
la desviación tı́pica es 25.
a. Construir un intervalo de confianza del 90 % para la resistencia a la compresión
promedio.
b. Construir un intervalo de confianza del 95 % para la resistencia a la compresión
promedio.
c. Construir un intervalo de confianza del 99 % para la resistencia a la compresión
promedio. Comparar el ancho de este intervalo de confianza con los anchos encontra-
dos en los apartados anteriores
d. Si queremos calcular un intervalo de confianza de anchura 10 con los datos que
tenemos, ¿que nivel de confianza tendrı́amos de que la verdadera media se encuentra
en ese intervalo?

Solución:
a Ic = x̄ ± tα/2 √sn
como el intervalo es del 95 % entonces: α = 0.05

>t_alpha2=qt(0.95,29)
>s=25; n=30
>c(3250-t_alpha2*(s/sqrt(n)), 3250+t_alpha2*(s/sqrt(n)))

[1] 3242.245 3257.755

b >t_alpha2=qt(0.975,29)
>s=25; n=30
>c(3250-t_alpha2*(s/sqrt(n)), 3250+t_alpha2*(s/sqrt(n)))

[1] 3240.665 3259.335

c >t_alpha2=qt(0.995,29)
>s=25; n=30
>c(3250-t_alpha2*(s/sqrt(n)), 3250+t_alpha2*(s/sqrt(n)))

[1] 3237.419 3262.581


Práctica 4: Tª Central Lı́mite. Intervalos de confianza 29

Al tener mayor confianza tenemos un intervalo de confianza cada vez mayor.


Hemos pasado en el apartado a) de un ancho de aproximadamente de 15, 18 y
a 25.
d El ancho del intervalo debe ser 10 entonces
q
tα/2 ∗ (s/sqrt(n)) ≤ 5, como no
cambia s y n. Tenemos que tα/2 ≤ 5/(s/ (n))
> s=25; n=30
> t_alpha2=5/(s/sqrt(n))
> pt(t_alpha2,29)
> alpha=(1-pt(t_alpha2,29))*2
>alpha
[1] 0.2823362
Por tanto el nivel de confianza es 1 − α=0.7176. Tendremos una confianza del
71.76 %

Ejercicio 3
La variable aleatoria X que representa el número de cerezas en una empanada
tiene la siguiente distribución de probabilidad: X
X 4 5 6 7
P(X = x) 0.2 0.4 0.3 0.1

Cuadro 1.1: Probabilidades del Ejercicio 2

a) Halla la media y la varianza de X


b) Halla la media y la varianza de la media para muestras aleatorias de 36 empa-
nadas de cereza.
c) Halla la probabilidad de que el número medio de cerezas en 36 empanadas sea
menor que 5.5.

Solución:
> x=c(4,5,6,7)
> p=c(0.2,0.4,0.3,0.1)
> m=sum(x*p)
> v=sum(x^2*p)-m^2
> v2=v/36
> d2=sqrt(v2)
> pr=pnorm(5.5,m,d2)
> pr
[1] 0.9087888
30 1.8 Ejercicios resueltos

Ejercicio 4
La distribución de alturas de una cierta raza de perros terrier tiene una altura
media de 72 centı́metros y una desviación tı́pica de 10 centı́metros, mientras que la
distribución de alturas de una cierta raza poddle tiene una altura media de de 28
centı́metros con una desviación tı́pica de 5 centı́metros. Suponiendo que las medias
muestrales pueden medirse con cualquier grado de precisión, halla la probabilidad de
que la media muestral para una muestra aleatoria de alturas de 64 terriers exceda la
media muestral para una muestra aleatoria de alturas de 100 poodles como mucho en
44.2 centı́metros.

Solución:
> m1=72
> d1=10
> n1=64
> m2=28
> d2=5
> n2=100
> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
> pr=pnorm(44.2,m,d)
> pr

[1] 0.5590481

Ejercicio 5
La calificación media para estudiantes de primer año en una prueba de aptitudes,
en cierta universidad es 540, con una desviación tı́pica de 50. ¿Cuál es la probabilidad
de que dos grupos de estudiantes seleccionados aleatoriamente, consistentes en 32 y
50 estudiantes, respectivamente, difiera en sus calificaciones medias por:

a) Más de 20 puntos

b) Una cantidad entre 5 y 10 puntos.

Solución:
Apartado a):

> m1=540
> d1=50
> n1=32
> m2=540
> d2=50
> n2=50
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 31

> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
> pr=2*pnorm(20,m,d,lower.tail=F)
> pr

[1] 0.07724424

Apartado b)

> m1=540
> d1=50
> n1=32
> m2=540
> d2=50
> n2=50
> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
> pr=2*(pnorm(10,m,d)-pnorm(5,m,d))
> pr

[1] 0.2816954

Ejercicio 6
De las 1000 estrellas más brillantes de la vecindad solar, se toma una muestra
de tamaño 100. De ellas 40 presentan manchas en su superficie. Halla el intervalo de
confianza para el número total de estrellas, de entre esas 1000, que tienen manchas.
Usa un nivel de confianza de 0.95.

Solución:
Determinaremos el intervalo de confianza para la proporción.
En este caso no podemos utilizar la entrada correspondiente en RCommander, pues
está pensada para aquella situación en que los datos están en bruto: Cada columna
con los datos activos representa los resultados de una muestra, codificados con una
variable de tipo factor.

> pt7<-prop.test(40,100,correct=FALSE,conf.level=0.95)
> pt7

1-sample proportions test without continuity correction

data: 40 out of 100, null probability 0.5


X-squared = 4, df = 1, p-value = 0.0455
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
32 1.8 Ejercicios resueltos

0.3094013 0.4979974
sample estimates:
p
0.4

El parámetro correct=FALSE es necesario para obtener el intervalo tal y como se


calcula en este curso. El nivel de confianza es 0.95. El intervalo de confianza para la
proporción es (0.309401, 0.497997).

Ejercicio 7
Los métodos para calcular la fuerza y requerimientos de la dureza deben ser con-
servadores, de tal forma que deben sobreestimar en vez de subestimar. La tasa de
éxitos de este método se puede medir con la probabilidad de una sobreestimación. El
artı́culo “Discrete Bracing Analysis for Light-Frame Word-Truss Compression Webs”
presenta los resultados de un experimento que se evaluó con un método usual (el
método de Plaut) para calcular la fuerza de soporte para una red de soportes de
compresión. En una muestra de 380 columnas cortas de prueba (cuatro a seis pies de
longitud), el método sobreestimó la fuerza para 304 de ellas, y en una muestra de 394
columnas largas de prueba (8 a 10 pies de longitud), el método sobreestimó la fuerza
de 360 de ellas. Determina un intervalo de confianza al 95 % para la diferencia entre
las tasas de éxito para columnas largas y columnas cortas. En este caso tampoco
podemos utilizar el menú RCommander, por el mismo motivo anterior. La instrucción
a utilizar es:

> prop.test(c(304,360),c(380,394),correct=FALSE, conf.level=0.95)

2-sample test for equality of proportions without


continuity correction

data: c(304, 360) out of c(380, 394)


X-squared = 20.5127, df = 1, p-value = 5.924e-06
alternative hypothesis: two.sided
95 percent confidence interval:
-0.1625545 -0.0648567
sample estimates:
prop 1 prop 2
0.8000000 0.9137056

También podría gustarte