Distribución media variables aleatorias

1 | Práctica 4: Tª Central Lı́mite.
Intervalos de confianza
Objetivos
Estudiar la propiedad reproductiva de determinadas variables aleatorias
Estudiar e interpretar el teorema central del lı́mite
Estudiar e interpretar la ley de los grandes números
Construir e interpretar intervalos de confianza
Simular y analizar técnicas de remuestreo. Interpretar los resultados
1
2 1.1 Comportamiento de la suma de variables aleatorias normales iguales
1.1. Comportamiento de la suma de variables alea-

torias normales iguales
La media de n variables aleatorias normales de igual media
y desviación tı́pica, es otra variable aleatoria normal de igual
media y con desviación tı́pica la de la población dividida por
la raı́z cuadrada del tamaño de la muestra (error tı́pico de la
media).
1.1.1. Media de variables aleatorias Normales

Veamos el caso para n = 4, con media de la población de µ = 3 y desviación
tı́pica de la población σ = 2. Obtenemos una muestra de 10000 medias de cuatro
distribuciones normales:
> x<-sapply(1:10000,function(x){mean(rnorm(4,3,2))})
Representamos el histograma, con los intervalos de la fórmula de Scott y añadimos

la curva normal original en azul y la curva normal de las medias en rojo y dos lı́neas
que representan la desviación tı́pica:
> hist(x,freq=F,breaks="Scott")
> curve(dnorm(x,3,2),col="blue",add=TRUE)
> curve(dnorm(x,3,1),col="red",add=TRUE)
> lines(c(5,3),dnorm(c(5,5),3,2),col="blue")
> lines(c(4,3),dnorm(c(4,4),3,1),col="red")
En la Figura 1.1 puede observarse como la distribución de las medias sigue una
normal de media igual a la de la población, pero más concentrada en torno a dicha
media, con una desviación tı́pica (error tı́pico) reducida a la mitad de la población
original.
1.1.2. Media de variables aleatorias Uniformes

No todas las distribuciones tienen un comportamiento como el de la normal. Por
ejemplo, la media de dos distribuciones uniformes en [0,1] es una distribución trian-
gular en el mismo intervalo.
La distribución triangular queda definida por tres parámetros: el mı́nimo a, el
máximo, b, y el valor más probable c. La posición del valor más probable varı́a con
relación a los extremos, pudiendo ser la distribución simétrica o no. La Figura 1.2
muestra las caracterı́sticas más importantes de una distribución triangular.
Generamos 10000 medias:
> set.seed(1)
> x<-sapply(1:10000,function(x){mean(runif(2))})
Práctica 4: Tª Central Lı́mite. Intervalos de confianza 3
Histogram of x
0.4
0.3
Density
0.2
0.1
0.0
0 2 4 6
Figura 1.1: Histograma de la media de observaciones de una distribución normal,

junto con la distribución de la población (en azul) y la de la media (en rojo).
Con esta instrucción hacemos que el programa tome 10000 muestras de 2 valores al
azar entre 0 y 1 y calcule su media. En la distribución uniforme, tenemos:
x2
Z 1 " #
1
µ= x dx = =
0 2 2
A continuación, representamos el histograma y añadimos la función de densidad
de la uniforme (en azul), usando la función curve(), y la triangular resultante (en
rojo).
> hist(x,freq=FALSE,breaks="Scott")
> curve(dunif(x),col="blue",add=TRUE)
> lines(c(0,.5,1),c(0,2,0), col="red")
En la llamada a la función lines(), los valores que aparecen con la primera c re-
presentan las abscisas y los valores que aparecen con la segunda c las ordenadas de
4 1.2 Teorema central del lı́mite
Figura 1.2: Descripción de una distribución triangular.
puntos que van a ser unidos. De esta forma aparecerán unidos los puntos (0,0), (0.5,2)
y (1,0).
El resultado puede verse en la Figura 1.3 y corresponde a una distribución triangu-
lar. La lı́nea azul corresponde a la gráfica de la función de dnesidad de la distribución
uniforme y que es:
(
1
b−a
a≤x≤b
f (x) =
0 En otro caso
1.2. Teorema central del lı́mite

La media de n variables aleatorias iid (independientes e igual-
mente distribuidas) se distribuye según una normal cuando n
tiende a infinito.
1.2.1. Media de variables aleatorias Uniformes

Veremos la distribución de la media de 30 distribuciones uniformes en [0,1]. To-
mamos 10000 medias:
Histogram of x
2.0
1.5
Density
1.0
0.5
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Figura 1.3: Histograma de la media de observaciones de una distribución uniforme,

junto con la distribución uniforme de la población (en azul) y la distribución triangular
de la media de observaciones (en rojo).
> set.seed(1)
> x<-sapply(1:10000,function(x){mean(runif(30))})
y representamos el histograma, la distribución uniforme original (en azul) y la curva

normal teórica correspondiente al teorema central del lı́mite (en rojo):
> curve(dunif(x),col="blue",add=T)
> curve(dnorm(x,.5,1/(sqrt(12*30))),col="red",add=T)
En la Figura 1.4 se puede apreciar que la media de las 30 distribuciones normales

sigue aproximadamente una distribución normal de igual media que la uniforme y con
error tı́pico igual a la desviación tı́pica de la uniforme dividida por la raı́z cuadrada de
30. Esto es, la curva Normal teórica correspondiente al Teorema Central del Lı́mite
se calcuları́a a partir de una media igual a
6 1.2.2 Media de variables aleatorias de una Exponencial
Z 1
1 x2 1
µ= x dx = [ ]10 =
0 1−0 2 2
y una desviación tı́pica igual a
qR q q q
1 3 1 1 1
0 x2 dx − µ2 [ x3 ]10 − 1
4 3
− 4 12
σ= √ = √ = √ =√
30 30 30 30
Histogram of x
8
6
Density
4
2
0
0.3 0.4 0.5 0.6 0.7
Figura 1.4: Histograma con la distribución de la media de 30 variables uniformes en

[0,1], junto con la distribución uniforme de la población (en azul) y la teórica del
promedio de 30 valores (en rojo).
1.2.2. Media de variables aleatorias de una Exponencial

Veremos una situación más extrema, la de una distribución exponencial de media
1. Hallaremos las medias de muestras de tamaño 40:
> x<-sapply(1:10000,function(x){mean(rexp(40))})
> curve(dexp(x),col="blue",add=T)
> curve(dnorm(x,1,1/sqrt(40)),col="red",add=T)
La Figura 1.5 muestra en azul la distribución original y, en rojo, la normal que

garantiza el T.C.L. Se aprecia que la aproximación con tamaños de muestra de 40 es
peor que la de la uniforme con 30. El que ésta sea simétrica ayuda a una convergencia
más rápida.
Histogram of x
2.5
2.0
1.5
Density
1.0
0.5
0.0
0.6 0.8 1.0 1.2 1.4 1.6
Figura 1.5: Histograma de simulaciones de la media de 40 variables aleatorias expo-

nenciales, junto con la distribución exponencial de la población (en azul) y la teórica
del promedio (en rojo).
1.3. Ley de los grandes números

La media de n variables aleatorias independientes e idéntica-
mente distribuidas que representan los resultados de una mues-
8 1.3.1 Distribución exponencial de media 1
tra de tamaño n, extraı́da de una población, converge en proba-

bilidad a la media de la población, cuando n tiene a infinito.
Nota: Se dice que una sucesión de números xn converge en probabilidad a un valor

c si
lı́m P r(|xn − c| > ) = 0; ∀ > 0

n→∞
1.3.1. Distribución exponencial de media 1

Veámoslo para una exponencial de media 1. Construimos un vector con 10000
valores aleatorios de la exponencial:
> set.seed(1)
> x<-rexp(10000)
El vector
> y<-cumsum(x)/(1:10000)
contiene, para la posición n, la suma de los n primeros elementos de x, dividida por

n. Esto es, la media de los n primeros números aleatorios. Es decir,
x1 x1 + x2 x1 + x2 + x3
y1 = , x2 = , y3 =
1 2 3
Con la siguiente instrucción
> plot(y, type="l")

> abline(h=1,col="red")
obtenemos la gráfica de las medias para los sucesivos valores de n. Con la lı́nea roja
marcamos el lı́mite al que tiende la media, que es la media de la variable exponencial
original, 1.
Se puede apreciar la fuerte oscilación de la media al principio y cómo tiende a
estabilizarse para valores altos de n.
1.3.2. Distribución de la proporción de éxitos

La proporción de éxitos al repetir un experimento aleatorio que tiene probabilidad
p de éxito, tiende (en probabilidad) a la probabilidad de éxito p, cuando n tiende a
infinito. Simulemos las proporciones de seises que salen al tirar un dado.
Generamos 10000 tiradas. El resultado es 1 con probabilidad 1/6, y 0 con proba-
bilidad 5/6:
> set.seed(1)
> x<-rbinom(10000,1,1/6)
1.2
1.1
1.0
0.9
y
0.8
0.7
0.6
0 2000 4000 6000 8000 10000
Index
Figura 1.6: Promedio progresivo de variables exponenciales. Puede verse como para
promedios de muchas observaciones el valor tiende a la media de la distribución de
la población, que es 1.
La expresión siguiente
> y<-cumsum(x)/(1:10000)
da, para la posición n, el cociente entre el número de seises acumulados hasta n,

dividido por n, esto es: la proporción de seises hasta la tirada n.
El siguiente código nos da la gráfica deseada y en rojo añade la probabilidad, 1/6,
a la que se tiende.
> plot(y, type="l")

> abline(h=1/6,col="red")
En la Figura 1.7 se puede apreciar la fuerte oscilación al principio y cómo se estabiliza

al aumentar n.
10 1.4 Obtención de una distribución de Student a partir de Normales
0.4
0.3
y
0.2
0.1
0.0
0 2000 4000 6000 8000 10000
Index
Figura 1.7: Proporción de seises obtenidos en función del número de tiradas que se
promedian. Se aprecia como cuantas más tiradas se promedian más nos acercamos a
la probabilidad real de sacar un seis de 1/6.
1.4. Obtención de una distribución de Student a

partir de Normales
Construiremos una distribución de Student de tres grados de libertad (para otros
grados de libertad es análogo). Tal distribución viene dada por
x
t3 = q
y 2 +z 2 +w2
3
donde x, y, z, w son N(0,1) e independientes.
> set.seed(1)
> t<-sapply(1:10000, function(x){rnorm(1)/sqrt(mean(rnorm(3)^2))})
> hist(t,breaks="Scott",freq=F,xlim=c(-10,10))
> curve(dt(x,3),-10,10, col="red",add=T)
En La Figura 1.8 puede verse el resultado. En rojo se ha representado la distribución

de Student de 3 grados de libertad, obtenida directamente con dt().
Histogram of t
0.3
Density
0.2
0.1
0.0
−10 −5 0 5 10
Figura 1.8: Simulación de una distribución t de Student con 3 grados de libertad (en
rojo) a partir de variables aleatorias N(0,1).
1.5. Intervalos de confianza

1.5.1. Intervalos de confianza con una Normal
Cuando construimos un intervalo de confianza al 95 %, significa que de cada 100
intervalos que construimos con el método elegido, en promedio, 95 contendrán la
media de la población. Veámoslo para la media de una distribución uniforme en [0,1],
a partir de muestras de tamaño 30, con un nivel de confianza del 95 %.
Construiremos primero la función intervalo que genera los intervalos de confian-
za:
> intervalo <- function(n, alpha) {
+ x <- runif(n)
12 1.5.1 Intervalos de confianza con una Normal
+ m <- mean(x)
+ et <- sd(x)/sqrt(n)
+ c(m - qnorm(1 - alpha/2) * et, m + qnorm(1 -
+ alpha/2) * et)
+ }
Esta función genera n observaciones de una uniforme en [0, 1] y calcula un intervalo

de confianza usando los cuantiles de distribución normal correspondiente. Recuerda
que el intervalo de confianza es
!
s s
x − zα/2 √ , x + zα/2 √
n n
Para comprobar si un valor está dentro de un intervalo podemos utilizar la si-
guiente función:
> dentro<-function(mu, intconf)

+ {
+ ( (intconf[1]<mu) & (mu<intconf[2]) )
+ }
El siguiente ejemplo genera un intervalo de confianza y comprueba si la media

real (0’5) está dentro o no:
> set.seed(123)
> ic<-intervalo(30, .05)
> ic
[1] 0.4681394 0.6766609
> dentro(0.5, ic)
[1] TRUE
A continuación construimos la base del gráfico, donde la media la hemos repre-

sentado con una lı́nea roja, y después, con un ciclo for, mostramos 100 intervalos de
confianza para la media a alturas crecientes. Los intervalos vienen representados por
lı́neas azules horizontales.
> plot(c(0.5,0.5),c(1,100),type="l",col="red",
+ xlab="Intervalo de confianza", ylab="")
> set.seed(111)
> for (i in 1:100){
+ lines(intervalo(30,.05),c(i,i),col="blue")
+ }
100
80
60
40
20
0
0.3 0.4 0.5 0.6 0.7
Intervalo de confianza
Figura 1.9: Intervalos de confianza para la media generados a partir de 100 muestras
(en azul) junto al valor real de la media (en rojo).
El resultado puede verse en la Figura 1.9. Puede observarse como, en este caso, fallan
8 de 100.
Repetimos el experimento cambiando la semilla para obtener otros intervalos dis-
tintos:
> set.seed(123)
> for (i in 1:100){lines(intervalo(30,.05),c(i,i),col="blue")}
Como puede verse en la Figura 1.10, en este caso sólo fallan 5 de 100.
Repetimos de nuevo:
> set.seed(321013)
14 1.5.2 Intervalos con la t de Student
> set.seed(123)
100
80
60
40
20
0
0.3 0.4 0.5 0.6 0.7
(en azul) junto al valor real de la media (en rojo).
EL resultado puede verse en la Figura 1.11 y ahora fallan 3 de 100.

En promedio, hasta ahora, llevamos alrededor de 5 fallos por 100. A largo plazo
acertaremos, en promedio, con intervalos que contengan la media en el 95 % de los
casos.
1.5.2. Intervalos con la t de Student

Veamos los intervalos de confianza en el caso en que interviene en el mismo la dis-
tribución de Student. Queremos ver el comportamiento de los intervalos de confianza
para la media de cinco normales estándar.
Construimos la función intervalot:
100
80
60
40
20
0
0.3 0.4 0.5 0.6 0.7
Figura 1.11: Segunda réplica de la simulación de intervalos de confianza para la media

generados a partir de 100 muestras (en azul) junto al valor real de la media (en rojo).
> intervalot<-function(n,alpha){
+ x<-rnorm(n)
+ m<-mean(x)
+ et<-sd(x)/sqrt(n)
+ c(m-qt(1-alpha/2,df=n-1)*et,m+qt(1-alpha/2,df=n-1)*et)
+ }
que devuelve los intervalos de confianza construidos con la t de Student de acuerdo a
la fórmula
s s
(x̄ − tα/2,ν √ , x̄ + tα/2,ν √ , )
n n
Por ejemplo:
> set.seed(123)
> ict<-intervalot(5,.05)
> ict
16 1.5.2 Intervalos con la t de Student
[1] -0.8134464 1.2005869
> dentro(.05, ict)
[1] TRUE
Dibujamos el soporte del gráfico que representa la media por medio de una linea
roja. Con el ciclo for generamos 100 intervalos.
> plot(c(0,0),c(0,100),type="l",col="red",xlim=c(-1.5,1.5))
> set.seed(111)
> for (i in 1:100){lines(intervalot(5,.05),c(i,i),col="blue")}
100
80
60
c(0, 100)
40
20
0
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
c(0, 0)
(en azul) junto al valor real de la media (en rojo). Hemos utilizado la fórmula con la
t de Student para calcular los intervalos en este caso.
Los intervalos generados pueden verse en la Figura 1.12. En este caso, es de notar
que los intervalos son de mayor amplitud que los que obtuvimos en el caso de la media
de las 30 uniformes por dos motivos: uno, porque las muestras son pequeñas (tamaño
5) y otro, porque, para el mismo nivel de significación, el valor de la t de Student da
valores mayores que la normal estándar.
Vemos que fallan 4 intervalos.
Si repetimos con
> plot(c(0,0),c(0,100),type="l",col="red",xlim=c(-1.5,1.5))
> set.seed(321)
> for (i in 1:100){lines(intervalot(5,.05),c(i,i),col="blue")}
En la Figura 1.13 puede verse como ahora obtenemos 1 fallo.

A largo plazo acertaremos en el 95 % de los casos con un intervalo que contenga
la media poblacional.
100
80
60
c(0, 100)
40
20
0
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
c(0, 0)
Figura 1.13: Segunda réplica de los intervalos de confianza para la media generados
a partir de 100 muestras (en azul) junto al valor real de la media (en rojo). Hemos
utilizado la fórmula con la t de Student para calcular los intervalos en este caso.
18 1.6 Intervalos de confianza con el método bootstrap
1.6. Intervalos de confianza con el método boots-

trap
Se parte de una muestra de tamaño n. A continuación se simulan extracciones con
repetición de muestras del mismo tamaño n. Se hallan las medias de estas muestras y
se determina su distribución aproximada mediante la simulación. Luego se determina
un intervalo de confianza. En este método no suponemos una población con una
distribución determinada, sólo confiamos en que la muestra sea representativa de la
población. Sea la muestra
> y
[1] 7.69 4.97 4.56 6.49 4.34 6.24 4.45
Realizamos 10000 extracciones con repetición, hallamos sus medias y determinare-

mos los cuantiles correspondientes al 0,025 y 0,975 que dan un intervalo de confianza
del 95 %. Las instrucción serı́an:
> set.seed(111)
> w<-sapply(1:10000,function(x){mean(sample(y,rep=TRUE))})
para calcular las medias de las 10000 muestras. Determinamos los cuantiles de las
medias con la siguientes instrucción:
> quantile(w,probs=c(.025,.975))
2.5% 97.5%
4.719929 6.475714
Estos dos valores dan el intervalo de confianza al 95 % de la media poblacional por el

método bootstrap.
En la Figura 1.14 hemos representado el histograma y los lı́mites del intervalo de
confianza:
> hist(w,breaks="Scott")
> abline(v=4.71,col="red")
> abline(v=6.48,col="red")
El intervalo viene representado por las lı́neas rojas en el histograma. Fuera de ellas
queda el 5 % del área del histograma.
Histogram of w
800
600
Frequency
400
200
0
4.5 5.0 5.5 6.0 6.5 7.0
Figura 1.14: Histograma de las 10000 medias de las muestras obtenidas por el método
del bootstrap. Las lı́neas rojas representan los lı́mites de un intervalo al 95 %.
1.7. Intervalos de confianza con RCommander
Intervalo de confianza para la media de una población

En la tabla siguiente se dan las medidas originales realizadas por James Short
en 1798 para la paralaje del sol (ángulo subtendido por la Tierra visto desde el Sol.
Estas medidas permitieron la primera determinación de la distancia Tierra-Sol:
[1] 8.63 10.16 8.50 8.31 10.80 7.50 8.12 8.42 9.20 8.16
[11] 8.36 9.77 7.52 7.96 7.83 8.62 7.54 8.28 9.32 7.96
[21] 7.47
Calcula el intervalo de confianza del 98 % para la media.

20 1.7 Intervalos de confianza con RCommander
Solución:
Creamos una estructura de datos como hemos hecho antes y le llamamos Ejer-
cicio6. Escogemos Estadı́sticos/Medias/Test t para una muestra, como
aparece en la Figura 1.15.
Figura 1.15: Test de la t de Student con RCommander.
Aparece una pantalla como la siguiente, en la que dejamos todo como está, excepto
que cambiamos el .95 por .98, como en la Figura 1.16.
Los resultados son:
One Sample t-test

data: Ejercicio6$x
t = 43.2663, df = 20, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
98 percent confidence interval:
8.000221 8.993113
sample estimates:
mean of x
8.496667
El intervalo de confianza es (8.000221, 8.993113)
Intervalo de confianza para la diferencia de medias de dos

poblaciones
Supongamos que las medias de Cavendish de la densidad de La Tierra se dividen
en dos grupos dependiendo del cable usado en la balanza de torsión:
[1] 5.50 5.61 5.88 5.07 5.26 5.55 5.36 5.29 5.58 5.65 5.57 5.53
[13] 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.39 5.42 5.47 5.63 5.34
[25] 5.46 5.30 5.75 5.68 5.85
Considerando entonces dos muestras, la primera formada por las 6 primeras me-
didas y la segunda por las restantes:
a) Calcula un intervalo de confianza del 95 % para la diferencia de medias entre

ambas muestras.
b) ¿Qué intervalo de confianza para la diferencia de medias se obtendrı́a si se hiciese

la hipótesis de que las dos varianzas poblacionales son iguales?
Solución:
Cargamos RCommander. En Datos/Nuevo conjunto de datos (Figura 1.17)
damos un nombre al conjunto de datos que vamos a generar, por ejemplo Ejercicio5.
Nos aparecerá la ventana para introducir los datos. A la primera variable que
recogerá los datos le daremos el nombre de x (como en la Figura 1.18) y a la segunda
variable que recogerá la muestra a la que pertenece cada dato le daremos el nombre
de grupo. La primera variable la designaremos como numérica y la segunda como
de carácter. Introduciremos los datos en la primera columna y el grupo, 1 ó 2, en la
segunda. La tabla resultante aparece en la Figura 1.19.
A continuación convertimos la columna grupo en un factor con Datos/Modificar
variables del conjunto de datos activo/Convertir variable numérica
en factor... (Figura 1.20).
En una pantalla como la de la Figura 1.21 seleccionamos la variable que queremos
convertir en factor e indicamos que vamos a utilizar números. Después de completar
Figura 1.17: Creación de un nuevo conjunto de datos con RCommander.
estos pasos, nos aparecerá una pantalla como la de la Figura 1.22 y responderemos
que sı́.
Como buscamos un intervalo de confianza para la diferencia de medias, procederı́a-
mos como se indica en el gráfico siguiente, seleccionando Estadı́sticos(medias/Test
t para muestras independientes (Figura 1.23).
Para que aparezca activa esta instrucción en el R-commander se necesita por
un lado una variable cuantitativa y, por otro, una variable dicotómica (cualitativa o
factor, con sólo dos modalidades) que indique los dos grupos (por ejemplo, el sexo). Si
no tenemos los datos de esta forma tendrı́amos que poner la instrucción con comandos.
Nos aparece una pantalla como la de la Figura 1.24.
Podemos ver que aparecen seleccionados, por defecto, el grupo y la variable ex-
plicada. Por defecto, también está seleccionado “bilateral”. El nivel de confianza lo
ponemos al 0,95 y no suponemos varianzas iguales para el apartado a) del ejercicio.
La respuesta es la siguiente:
> t.test(dej5$x[dej5$grupo=="a"], dej5$x[dej5$grupo=="b"])
Welch Two Sample t-test
data: dej5$x[dej5$grupo == "a"] and dej5$x[dej5$grupo == "b"]

Figura 1.18: Creación de la variable x con RCommander.
t = -0.0422, df = 6.237, p-value = 0.9677

alternative hypothesis: true difference in means is not equal to 0
-0.3007638 0.2904739
sample estimates:
mean of x mean of y
5.478333 5.483478
Para el apartado b) suponemos la igualdad de varianzas, porque ası́ nos lo dice el

ejercicio (Figura 1.25). Los resultados son:
> t.test(dej5$x[dej5$grupo=="a"], dej5$x[dej5$grupo=="b"], var.equal=TRUE)
Two Sample t-test
data: dej5$x[dej5$grupo == "a"] and dej5$x[dej5$grupo == "b"]

t = -0.0533, df = 27, p-value = 0.9579
alternative hypothesis: true difference in means is not equal to 0
-0.2031417 0.1928519
sample estimates:
mean of x mean of y
5.478333 5.483478
Figura 1.19: Tabla de datos con las variables x y grupo con RCommander.
Figura 1.20: Modificar el conjunto de datos activo con RCommander.
Hay que fijarse en que al aumentar la información, ya que sabemos que las va-
rianzas son iguales, la amplitud del intervalo disminuye.


1.8. Ejercicios resueltos

Ejercicio 1
Los cinescopios de televisión del fabricante A tienen una duración media de 6.5
años y una desviación tı́pica de 0.9 años, mientras que los del fabricante B tienen una
vida media de 6 años con una desviación tı́pica de 0.8 años. ¿Cuál es la probabilidad
de que una muestra aleatoria de 36 cinescopios del fabricante A tenga una duración
media que sea al menos un año más que la duración media de una muestra de 49
cinescopios del fabricante B?
Solución:
> m1=6.5
> d1=0.9
> n1=36
> m2=6
> d2=0.8
> n2=49
Obtenemos la diferencia de medias:
> m=m1-m2
y el error tı́pico de la diferencia de medias muestrales para los tamaños dados
> d=sqrt(d1^2/n1+d2^2/n2)
28 1.8 Ejercicios resueltos
la probabilidad de que m sea mayor que 1 es
> pr=pnorm(1,m,d,lower.tail=F)
la solución es 0.00400747867987543.
Ejercicio 2
Un ingeniero civil analiza la resistencia a la compresión del hormigón. Al tomar
una muestra aleatoria de 30 observaciones, se tiene que la media muestral es 3250 y
la desviación tı́pica es 25.
a. Construir un intervalo de confianza del 90 % para la resistencia a la compresión
promedio.
b. Construir un intervalo de confianza del 95 % para la resistencia a la compresión
promedio.
c. Construir un intervalo de confianza del 99 % para la resistencia a la compresión
promedio. Comparar el ancho de este intervalo de confianza con los anchos encontra-
dos en los apartados anteriores
d. Si queremos calcular un intervalo de confianza de anchura 10 con los datos que
tenemos, ¿que nivel de confianza tendrı́amos de que la verdadera media se encuentra
en ese intervalo?
Solución:
a Ic = x̄ ± tα/2 √sn
como el intervalo es del 95 % entonces: α = 0.05
>t_alpha2=qt(0.95,29)
>s=25; n=30
>c(3250-t_alpha2*(s/sqrt(n)), 3250+t_alpha2*(s/sqrt(n)))
[1] 3242.245 3257.755
b >t_alpha2=qt(0.975,29)
>s=25; n=30
[1] 3240.665 3259.335
c >t_alpha2=qt(0.995,29)
>s=25; n=30
[1] 3237.419 3262.581

Al tener mayor confianza tenemos un intervalo de confianza cada vez mayor.

Hemos pasado en el apartado a) de un ancho de aproximadamente de 15, 18 y
a 25.
d El ancho del intervalo debe ser 10 entonces
q
tα/2 ∗ (s/sqrt(n)) ≤ 5, como no
cambia s y n. Tenemos que tα/2 ≤ 5/(s/ (n))
> s=25; n=30
> t_alpha2=5/(s/sqrt(n))
> pt(t_alpha2,29)
> alpha=(1-pt(t_alpha2,29))*2
>alpha
[1] 0.2823362
Por tanto el nivel de confianza es 1 − α=0.7176. Tendremos una confianza del
71.76 %
Ejercicio 3
La variable aleatoria X que representa el número de cerezas en una empanada
tiene la siguiente distribución de probabilidad: X
X 4 5 6 7
P(X = x) 0.2 0.4 0.3 0.1
Cuadro 1.1: Probabilidades del Ejercicio 2
a) Halla la media y la varianza de X

b) Halla la media y la varianza de la media para muestras aleatorias de 36 empa-
nadas de cereza.
c) Halla la probabilidad de que el número medio de cerezas en 36 empanadas sea
menor que 5.5.
Solución:
> x=c(4,5,6,7)
> p=c(0.2,0.4,0.3,0.1)
> m=sum(x*p)
> v=sum(x^2*p)-m^2
> v2=v/36
> d2=sqrt(v2)
> pr=pnorm(5.5,m,d2)
> pr
[1] 0.9087888
Ejercicio 4
La distribución de alturas de una cierta raza de perros terrier tiene una altura
media de 72 centı́metros y una desviación tı́pica de 10 centı́metros, mientras que la
distribución de alturas de una cierta raza poddle tiene una altura media de de 28
centı́metros con una desviación tı́pica de 5 centı́metros. Suponiendo que las medias
muestrales pueden medirse con cualquier grado de precisión, halla la probabilidad de
que la media muestral para una muestra aleatoria de alturas de 64 terriers exceda la
media muestral para una muestra aleatoria de alturas de 100 poodles como mucho en
44.2 centı́metros.
Solución:
> m1=72
> d1=10
> n1=64
> m2=28
> d2=5
> n2=100
> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
> pr=pnorm(44.2,m,d)
> pr
[1] 0.5590481
Ejercicio 5
La calificación media para estudiantes de primer año en una prueba de aptitudes,
en cierta universidad es 540, con una desviación tı́pica de 50. ¿Cuál es la probabilidad
de que dos grupos de estudiantes seleccionados aleatoriamente, consistentes en 32 y
50 estudiantes, respectivamente, difiera en sus calificaciones medias por:
a) Más de 20 puntos
b) Una cantidad entre 5 y 10 puntos.
Solución:
Apartado a):
> m1=540
> d1=50
> n1=32
> m2=540
> d2=50
> n2=50
> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
> pr=2*pnorm(20,m,d,lower.tail=F)
> pr
[1] 0.07724424
Apartado b)
> m1=540
> d1=50
> n1=32
> m2=540
> d2=50
> n2=50
> m=m1-m2
> d=sqrt(d1^2/n1+d2^2/n2)
> pr=2*(pnorm(10,m,d)-pnorm(5,m,d))
> pr
[1] 0.2816954
Ejercicio 6
De las 1000 estrellas más brillantes de la vecindad solar, se toma una muestra
de tamaño 100. De ellas 40 presentan manchas en su superficie. Halla el intervalo de
confianza para el número total de estrellas, de entre esas 1000, que tienen manchas.
Usa un nivel de confianza de 0.95.
Solución:
Determinaremos el intervalo de confianza para la proporción.
En este caso no podemos utilizar la entrada correspondiente en RCommander, pues
está pensada para aquella situación en que los datos están en bruto: Cada columna
con los datos activos representa los resultados de una muestra, codificados con una
variable de tipo factor.
> pt7<-prop.test(40,100,correct=FALSE,conf.level=0.95)
> pt7
1-sample proportions test without continuity correction
data: 40 out of 100, null probability 0.5

X-squared = 4, df = 1, p-value = 0.0455
alternative hypothesis: true p is not equal to 0.5
0.3094013 0.4979974
sample estimates:
p
0.4
El parámetro correct=FALSE es necesario para obtener el intervalo tal y como se

calcula en este curso. El nivel de confianza es 0.95. El intervalo de confianza para la
proporción es (0.309401, 0.497997).
Ejercicio 7
Los métodos para calcular la fuerza y requerimientos de la dureza deben ser con-
servadores, de tal forma que deben sobreestimar en vez de subestimar. La tasa de
éxitos de este método se puede medir con la probabilidad de una sobreestimación. El
artı́culo “Discrete Bracing Analysis for Light-Frame Word-Truss Compression Webs”
presenta los resultados de un experimento que se evaluó con un método usual (el
método de Plaut) para calcular la fuerza de soporte para una red de soportes de
compresión. En una muestra de 380 columnas cortas de prueba (cuatro a seis pies de
longitud), el método sobreestimó la fuerza para 304 de ellas, y en una muestra de 394
columnas largas de prueba (8 a 10 pies de longitud), el método sobreestimó la fuerza
de 360 de ellas. Determina un intervalo de confianza al 95 % para la diferencia entre
las tasas de éxito para columnas largas y columnas cortas. En este caso tampoco
podemos utilizar el menú RCommander, por el mismo motivo anterior. La instrucción
a utilizar es:
> prop.test(c(304,360),c(380,394),correct=FALSE, conf.level=0.95)
2-sample test for equality of proportions without

continuity correction
data: c(304, 360) out of c(380, 394)

X-squared = 20.5127, df = 1, p-value = 5.924e-06
alternative hypothesis: two.sided
-0.1625545 -0.0648567
sample estimates:
prop 1 prop 2
0.8000000 0.9137056

Distribución media variables aleatorias

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Distribución media variables aleatorias

Cargado por

Copyright:

Formatos disponibles

1 | Práctica 4: Tª Central Lı́mite.

Estudiar e interpretar el teorema central del lı́mite

Estudiar e interpretar la ley de los grandes números

Construir e interpretar intervalos de confianza

Simular y analizar técnicas de remuestreo. Interpretar los resultados

1.1. Comportamiento de la suma de variables alea-

1.1.1. Media de variables aleatorias Normales

Representamos el histograma, con los intervalos de la fórmula de Scott y añadimos

1.1.2. Media de variables aleatorias Uniformes

Figura 1.1: Histograma de la media de observaciones de una distribución normal,

Figura 1.2: Descripción de una distribución triangular.

1.2. Teorema central del lı́mite

1.2.1. Media de variables aleatorias Uniformes

0.0 0.2 0.4 0.6 0.8 1.0

Figura 1.3: Histograma de la media de observaciones de una distribución uniforme,

y representamos el histograma, la distribución uniforme original (en azul) y la curva

En la Figura 1.4 se puede apreciar que la media de las 30 distribuciones normales

0.3 0.4 0.5 0.6 0.7

Figura 1.4: Histograma con la distribución de la media de 30 variables uniformes en

1.2.2. Media de variables aleatorias de una Exponencial

La Figura 1.5 muestra en azul la distribución original y, en rojo, la normal que

0.6 0.8 1.0 1.2 1.4 1.6

Figura 1.5: Histograma de simulaciones de la media de 40 variables aleatorias expo-

1.3. Ley de los grandes números

tra de tamaño n, extraı́da de una población, converge en proba-

Nota: Se dice que una sucesión de números xn converge en probabilidad a un valor

lı́m P r(|xn − c| > ) = 0; ∀ > 0

1.3.1. Distribución exponencial de media 1

contiene, para la posición n, la suma de los n primeros elementos de x, dividida por

> plot(y, type="l")

1.3.2. Distribución de la proporción de éxitos

0 2000 4000 6000 8000 10000

da, para la posición n, el cociente entre el número de seises acumulados hasta n,

> plot(y, type="l")

En la Figura 1.7 se puede apreciar la fuerte oscilación al principio y cómo se estabiliza

0 2000 4000 6000 8000 10000

1.4. Obtención de una distribución de Student a

donde x, y, z, w son N(0,1) e independientes.

En La Figura 1.8 puede verse el resultado. En rojo se ha representado la distribución

1.5. Intervalos de confianza

Esta función genera n observaciones de una uniforme en [0, 1] y calcula un intervalo

> dentro<-function(mu, intconf)

El siguiente ejemplo genera un intervalo de confianza y comprueba si la media

[1] 0.4681394 0.6766609

> dentro(0.5, ic)

A continuación construimos la base del gráfico, donde la media la hemos repre-

0.3 0.4 0.5 0.6 0.7

0.3 0.4 0.5 0.6 0.7

EL resultado puede verse en la Figura 1.11 y ahora fallan 3 de 100.

1.5.2. Intervalos con la t de Student

0.3 0.4 0.5 0.6 0.7

Figura 1.11: Segunda réplica de la simulación de intervalos de confianza para la media

[1] -0.8134464 1.2005869

> dentro(.05, ict)

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

En la Figura 1.13 puede verse como ahora obtenemos 1 fallo.

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

1.6. Intervalos de confianza con el método boots-

[1] 7.69 4.97 4.56 6.49 4.34 6.24 4.45

Realizamos 10000 extracciones con repetición, hallamos sus medias y determinare-

Estos dos valores dan el intervalo de confianza al 95 % de la media poblacional por el

4.5 5.0 5.5 6.0 6.5 7.0

lı́m P r(|xn − c| > ) = 0; ∀ > 0