Está en la página 1de 12

EXAMEN DE ESTADÍSTICA Junio 2009

Apellidos: DNI:
Nombre: GRUPO:

1. El escritor Rex Warner, en su libro “Tucı́dides: Historia de las guerras del Peloponeso”,
escribe

El problema era encontrar una forma de atravesar la muralla. Su método consitió


en construir escaleras que alcanzaron lo alto de la muralla, y lo hicieron calculando
la altura de la muralla conociendo el número de filas de ladrillos en una zona que
todavı́a no habı́a sido enfoscada. El número de filas de ladrillos fue contado por
varias personas. Aunque algunos, debido a la distancia, dieron el valor erróneo, la
mayorı́a indicó la cifra correcta. Por tanto, conocido el grosor de un ladrillo, por
simple multiplicación, obtuvieron la altura de sus escaleras.

a) ¿Qué parámetro estimaron mediante este procedimiento? Justificar brevemente la


respuesta.
— la media aritmética
— el percentil 10
— la moda
— la media cuadrática
— la desviación tı́pica
— la mediana
— el percentil 90
— la media geométrica
— ninguno de las anteriores
b) ¿Qué magnitud, de las listadas más arriba, es útil para segregar al 10% de las
personas que dieron los valores más altos? Explicar la respuesta.
(Total 0.5 puntos)

Respuesta:
a) La moda fue el estimador utilizado para determinar la anchura de los ladrillos, dado
que emplearon el valor más repetido.
b) El 10% de las personas que dieron un valor más alto queda determinado por el
percentil 90, que nos indica en qué valor del parámetro medido se encuentra el 90% de
lo valores más bajos.

1
2. Contestar breve y razonadamente a las siguientes preguntas, utilizando exclusivamente
el espacio reservado para cada una de ellas:
(Total 1.5 puntos)
a) ¿Para qué sirve la mediana, si ya tenemos la media aritmética?
Respuesta: Es una medida más robusta, no depende de valores extremos erróneos.

b) La media de la muestra es un número concreto. ¿Por qué se dice entonces que es


una variable aleatoria?
Respuesta: Se refiere a la media muestral, la cual cambia de una muestra a otra.
Si el muestreo es aleatorio, la variable “media muestral” será una variable aleatoria,
ya que se determina a partir de los elementos de una muestra que son, en sı́ mismos,
variables aleatorias.

c) ¿Qué indica la expresión: un intervalo de confianza del 95 % es 27.5 % ± 3.6 %?


Respuesta: Se refiere al intervalo de confianza de una proporción, expresada en tanto
por ciento.

d) ¿Cómo elegir la hipótesis alternativa que conviene plantear?


Respuesta: La contraria a la hipótesis nula. A su vez, ésta se formula estableciendo
lo contrario de lo que “dicen” los datos muestrales.

e) ¿Qué tipos de error se pueden cometer en un contraste de hipótesis, y a cuál de


ellos nos enfrentamos normalmente?
Respuesta: Tipo I (rechazar H0 cuando ésta es verdadera) y Tipo II (aceptar H0
cuando ésta es falsa). Normalmente nos enfrentamos a los errores de Tipo I, los cuales
quedan establecidos al fijar el nivel de significación α. Los errores de Tipo II no suelen
determinarse porque ello implica conocer el valor poblacional del parámetro estudiado,
que no suele ser conocido.

f ) ¿Qué contraste de hipótesis plantearı́as sobre la temperatura para determinar si se


está produciendo un cambio climático en la media, cuyo efecto es un calentamiento?
Respuesta: (
H0 : µ2 ≤ µ1
H1 : µ2 > µ1
Es un contraste unilateral, donde µi se refiere a la temperatura media medida en el
instante ti , donde t1 < t2 . Queremos testear si el incremento en la temperatura media
(con el transcurso del tiempo) es significativo.

2
3. En la Tabla se presentan las áreas 0x f (x) dx (multiplicadas por 1000) bajo la curva
R

normal de la Figura. Resolver con los datos de la Tabla las siguientes preguntas:
(Total 1.0 puntos)
a) ¿Cuál es el área total bajo la curva normal y la probabilidad de que la variable tome
un valor cualquiera de su recorrido (de −∞ a +∞)?
b) ¿Cuál es el área bajo la curva determinada por las ordenadas en los extremos de
los intervalos (1, 2) y (−1, −2)? ¿Cuál es el valor de la probabilidad de que la variable
X tome un valor comprendido entre 1 y 2? ¿Y entre −2 y −1?
c) ¿Cuál es el intervalo (−a, a) cuyas ordenadas extremas delimitan el 50 % del área
total bajo la curva normal y cuál su expresión probabilı́stica?
d) ¿Cuál es el valor a tal que las colas (áreas a la izquierda de −a y a la derecha de
+a) suman el 5 % del área total?

Respuesta:
499.95
a) De la tabla: el área de 0 a 3.9 toma el valor = 0.49995 ∼ 0.5
1000
Por simetria de la curva de Gauss, el valor anterior es la mitad del área total, que por
tanto vale 1.
La probabilidad de que la variable X tome un valor cualquiera es 1; es suceso seguro.

3
b) De la tabla:
Z 1
El área entre x = 0 y x = 1 es f (x) dx = 0.341
0
Z 2
El área entre x = 0 y x = 2 es f (x) dx = 0.477
0
El área entre x = 1 y x = 2 será la diferencia de los dos valores anteriores:
Z 2 Z 1
f (x) dx − f (x) dx = 0.136
0 0

El área entre −1 y −2 es la misma que la anterior por la simetrı́a de la figura.

c) El valor de a que delimita un 25% del área entre x = 0 y x = a estará (ver tabla)
entre 0.6 y 0.7. Se interpola linealmente
Z a
f (x) dx = 0.25
0

0.258 − 0.226 0.250 − 0.226


=
0.7 − 0.6 a − 0.6

y se obtiene a = 0.68
Expresión probabilı́stica:
Z +0.68
P (−0.68 < X < +0.68) = f (x) dx = 0.5
−0.68

d) El área de cada cola debe medir el 2.5% del área total con lo que a satisfará:
Z x
f (x) dx = 0.500 − 0.025 = 0.475
0

El valor apropiado de a está entre 1.9 y 2.0. Un valor más preciso se puede obtener
mediante una interpolación lineal:
0.477 − 0.471 0.475 − 0.471
= ⇒ a = 1.9667 ∼ 2
2.0 − 1.9 a − 1.9

4
4. Una caja tiene dos monedas. Una de las monedas tiene cara y cruz mientras que la
otra tiene dos caras. Se extrae al azar una de las monedas y, sin mirar cómo es, se
lanza y sale cara.
a) ¿Cuál es la probabilidad de que la moneda lanzada sea la legal (la que tiene cara y
cruz)?
b) Supongamos que se vuelve a lanzar la misma moneda (todavı́a sin mirar cómo es)
y obtenemos otra cara. ¿Cuál es la probabilidad de que sea la legal?
(Total 1.0 puntos)

Respuesta:
a) Se pueden considerar los sucesos:
L = {Que hayamos elegido la moneda legal}
F = {Que hayamos elegido la moneda falsa}
C = {Obtener cara al lanzar la moneda elegida}
Las probabilidades son:
P (L) = 1/2
P (F ) = 1/2
P (C|L) = 1/2
P (C|F ) = 1
La probabilidad de que la moneda elegida sea la legal habiendo salido cara puede
calcularse mediante el Teorema de Bayes:

P (L)P (C|L) 1/2 × 1/2 1/4 1


P (L|C) = = = =
P (L)P (C|L) + P (F )P (C|F ) 1/2 × 1/2 + 1/2 × 1 3/4 3

b) Ahora vamos a considerar el suceso:


CC = {Obtener dos veces cara al lanzar la moneda elegida dos veces seguidas}
Es inmediato ver que:
P (CC|L) = 1/2 × 1/2 = 1/4
P (CC|F ) = 1 × 1 = 1
La probabilidad de que la moneda elegida sea la legal si ha salido dos veces cara es:

P (L)P (CC|L) 1/2 × 1/4 1/8 1


P (L|CC) = = = =
P (L)P (CC|L) + P (F )P (CC|F ) 1/2 × 1/4 + 1/2 × 1 5/8 5

5
5. Sea una caja que contiene 4 bolas rojas y 2 bolas negras. Se selecciona una bola al
azar, se anota su color y se devuelve a la caja. Esta actividad se repite 100 veces.
Encontrar la probabilidad de observar una bola roja 60 veces o más.
(Total 1.0 puntos)

Respuesta: la probabilidad de sacar bola roja en cada extracción será


4 2
P (bola roja) = =
6 3
El proceso sigue una distribución binomial. El problema es que el número de ensayos
es muy alto (n = 100), por lo que las tablas de la distribución binomial no resultan
útiles (tampoco las fórmulas, salvo que estemos dispuestos a evaluar factoriales muy
grandes). Sin embargo, como se verifica
2 1
np = 100 × >5 y nq = 100 × >5
3 3
podemos aproximar la binomial por una Normal N (µ, σ), donde

µ = np = 66.67 y σ= npq = 4.71

Por tanto, la probabilidad que nos piden en el enunciado vendrá dada por

P (X ≥ 60) = P (X 0 > 59.5) = P (Z > −1.52) = 1−P (Z > 1.52) = 1−0.0643 = 0.9357

donde hemos hecho uso de la corrección de continuidad para pasar de X a X 0 , y donde


la variable X 0 ha sido tipificada a través de la transformación

X0 − µ 59.5 − 66.67
Z= = = −1.52
σ 4.71

6
6. Dados los datos correspondientes al peso de una muestra de individuos, calcular un
intervalo en el que, con una confianza del 95%, se encuentre el valor de la media de la
población.

Peso (kg) 85 52 67 62 48 57 55 63 74 56 62 62 60
60 60 50 53 73 69 87 58 70 83 58 70 83
58 81 79 81 80 87 85 83 100 80 75 85 73

n
x2i = 196572
X
Nota:
i=1
(Total 1.0 puntos)

Respuesta:
Como el número de datos es n = 39 > 30, el intervalo de confianza para la media viene
dado por
" #
S
Iµ = X ± zα/2 √
n

Utilizando los datos de la tabla se obtiene


n
X
xi
i=1 2724
x= = = 69.85 kg
n 39

Por otro lado, el cálculo de la desviación tı́pica de la muestra puede realizarse utilizando
la expresión para la varianza
Pn
2 i=1 xi 2 − n x2 196572 − 39 × 69.852
s = = = 165.53 ⇒ s = 12.87 kg
n−1 38
Por otro lado, la tabla de la normal proporciona: z0.025 = 1.96.
Reuniendo toda la información se obtiene
" #
S
Iµ = X ± zα/2 √ = [69.85 ± 4.04] = [65.81, 73.89] kg
n

7
7. Sea X1 , X2 ,. . . , Xn una muestra aleatoria construida eligiendo 1 elemento de n pobla-
ciones normales diferentes N (µ, σi ), con i = 1, . . . , n. Es decir, dichas poblaciones
normales tienen la misma media pero diferente desviación tı́pica.
a) Calcular el estimador de máxima verosimilitud para la media µ.
b) ¿Qué ocurre si σi = σ ∀i = 1, . . . , n?
(Total 2.0 puntos)
Respuesta:
a) Este proceso permite obtener el estimador de máxima verosimilitud de una media
pesada con errores.
La función de máxima verosimilitud de puede escribir entonces como
n (xi −µ)2
Y 1 −
2σ 2
L= √ e i

i=1 σi 2π

Tomando logaritmos
n √ (xi − µ)2
!
X
ln L = − ln( 2π) − ln(σi ) − =
i=1 2σi2

√ Xn
1X n
(xi − µ)2
= −n ln( 2π) − ln(σi ) −
i=1 2 i=1 σi2
A continuación se toman derivadas parciales respecto al parámetro que se desea esti-
mar, en este caso µ, y se iguala a cero
n n n
∂ ln L 1 X xi − µ X xi X 1
= − × 2 × (−1) =0 ⇒ − µ =0
∂µ 2 i=1 σi2 2
i=1 σi
2
i=1 σi

Despejando finalmente µ se obtiene


n
xiX
2
i=1 σi
µ= Xn
1
2
i=1 σi

b) Si todos los valores de σi son iguales, se debe obtener el estimador de máxima


verosimilitud para la media de una distribución normal N (µ, σ), que ya sabemos coin-
cide con la media aritmética n X
xi
i=1
µ=
n
Este resultado es el que se obtiene de la expresión de µ derivado en el apartado anterior
sustituyendo σi por σ
n n n n
Xxi X xi 1 X X
2 2
x i xi
i=1 σi i=1 σ σ 2 i=1 i=1
µ= Xn =Xn = n =
1 1 n
2 σ 2
2
i=1 σi i=1 σ

8
8. Un fabricante empaqueta dispositivos electrónicos en lotes de seis unidades. En 50
lotes se ha obtenido la siguiente distribución del número n de lotes con x dispositivos
defectuosos:

x 0 1 2 3 4 5 6
n 10 17 14 6 3 0 0

a) Determinar una estimación puntual de la proporción de dispositivos defectuosos


en los 50 lotes.
b) Contrastar la hipótesis nula de que el número de dispositivos defectuosos en cada
lote sigue una distribución binomial, con un nivel de significación del 5%. Razonar
claramente la respuesta representando las regiones crı́tica y de aceptación.
c) Determinar el nivel de significación crı́tico a partir del cual se rechaza dicha
hipótesis e interpretar el resultado.
d) Calcular la probabilidad de obtener al menos un dispositivo defectuoso en un lote
dado usando la distribución binomial y la aproximación normal. ¿Cabe esperar
que dicha aproximación sea aceptable?
(Total 2.0 puntos)

Respuesta:
a) La proporción observada de dispositivos defectuosos viene dada por
P P
número de dispositivos defectuosos xi ni xi n i
p= = P = P
número total de dispositivos 6ni 6 ni
0 × 10 + 1 × 17 + 2 × 14 + 3 × 6 + 4 × 3 + 5 × 0 + 6 × 0 75
= = = 0.25 (25%)
6 × 50 300

b) Establecemos la hipótesis nula:


H0 : el número de dispositivos defectuosos en cada lote de seis (n = 6) sigue una
distribución binomial con p = 0.25. Si H0 es cierta, el estadı́stico
k
(oi − ei )2
χ2k−p−1 =
X

i=1 ei

seguirá una distribución χ2 con k − p − 1 grados de libertad, siendo k el número de


intervalos en que se agrupan los datos y p el número de parámetros estimados (no
confundir con el parámetro p de la distribución binomial). En este caso p = 1 ya que
p (parámetro de la distribución binomial) se estima a partir de los datos mediante p.
Para contrastar H0 debemos comparar χ2k−p−1 con χ2α,k−p−1 , donde α es el nivel de
significación. Para ello calculamos las frecuencias esperadas (ei ) mirando en la Tabla I:

ei = N × pi = N × P (X = xi ) = N × b(xi ; n, p), con i = 1, . . . , 7

donde N = 50, n = 6, y p = 0.25.

9
e1 =N × p1 =N × P (X = 0) = N × b(0; 6, 0.25) = 50 × 0.178 = 8.90
e2 =N × p2 =N × P (X = 1) = N × b(1; 6, 0.25) = 50 × 0.356 = 17.80
e3 =N × p3 =N × P (X = 2) = N × b(2; 6, 0.25) = 50 × 0.297 = 14.85
e4 =N × p4 =N × P (X = 3) = N × b(3; 6, 0.25) = 50 × 0.132 = 6.60
e5 =N × p5 =N × P (X = 4) = N × b(4; 6, 0.25) = 50 × 0.033 = 1.65
e6 =N × p6 =N × P (X = 5) = N × b(5; 6, 0.25) = 50 × 0.004 = 0.20
e7 =N × p7 =N × P (X = 6) = N × b(6; 6, 0.25) = 50 × 0.0+ ' 0.00

Para asegurar que, bajo la hipótesis nula H0 , las frecuencias observadas oi estén dis-
tribuidas normalmente debe cumplirse ei ≥ 5 ∀i. Para ello agrupamos los tres últimos
intervalos. Ası́, k = 4. Haciendo lo mismo con las frecuencias observadas obtenemos:

x 0 1 2 3 o más
o 10 17 14 9
e 8.90 17.80 14.85 8.45

4
(oi − ei )2
χ2k−p−1 χ24−1−1 χ22
X
y = = = = 0.256.
i=1 ei

χ2α,k−p−1 = χ20.05,4−1−1 = χ20.05,2 = 5.991.

Como χ22 = 0.256 < 5.991 = χ20.05,2 no podemos rechazar la hipótesis nula y podemos
concluir que los datos son consistentes con una distribución binomial.
c) El valor del estadı́stico χ22 = 0.256 deja a su derecha un área αc :

αc = P (χ22 > 0.256).

Mirando en las tablas concluimos que 0.8 < αc < 0.9. Por lo tanto, la hipótesis nula
no podrá rechazarse para los valores tı́picos del nivel de significación (α = 0.01 − 0.1).
d) Distribución binomial con p = 0.25, n = 6:
6
X
P (X ≥ 1) = b(x; 6, 0.25) = 0.822
x=1

Distribución normal:

X : b(X; 6, 0.25) ' X 0 : N (µ, σ)

con

µ = np = 6 × 0.25 = 1.5

√ q
σ= npq = 6 × 0.25 × (1 − 0.25) = 1.0607.

P (X ≥ 1) ' P (X 0 ≥ 0.5) = P (Z ≥ −0.9428) = 1 − P (Z > 0.9428) = 0.8264.

La aproximación normal a la distribución normal no es apropiada al ser n = 6 < 30 y


np = 1.5 < 5.

10
9. Si suponemos que en una población humana la distribución del número de hijos de las
familias sigue una ley de Poisson de λ = 2, mientras que la distribución de sexos sigue
una ley binomial de p = 0.50:
a) ¿Cuál es la probabilidad de que una familia tenga 5 hijos de los que 2 sean varones
y 3 mujeres?
b) ¿Cuál es la probabilidad de que una familia tenga 3 hijos, todos varones?
(Total 2.0 puntos)

Respuesta:
a) La probabilidad que nos piden se puede calcular utilizando las dos distribuciones
de probabilidad (Poisson y binomial):

P (5 hijos ∩ 2 varones) = P (5 hijos) × P (2 varones|5 hijos) =

= p(x = 5; λ = 2) × b(x = 2; n = 5; p = 0.5) =


λx
!
n x n−x
= e−λ × p q =
x! x
25
!
5
= e−2 × 0.52 0.55−2 =
5! 2
0.0361 × 0.3125 = 0.0113

b) La probabilidad en esta caso se calcula de una forma similar mediante:

P (3 hijos ∩ 3 varones) = P (3 hijos) × P (3 varones|3 hijos) =

= p(x = 3; λ = 2) × b(x = 3; n = 3; p = 0.5) =


λx
!
n x n−x
= e−λ × p q =
x! x
23
!
3
= e−2 × 0.53 0.53−3 =
3! 3
0.1804 × 0.1250 = 0.0226

11
10. Si no se aprobó la práctica liberatoria del laboratorio de Estadı́stica y no se tienen
las prácticas aprobadas de cursos anteriores, indicar ordenadamente los comandos de
matlab necesarios para contestar a cada uno de los apartados del problema 8.
(Total 2.0 puntos)
Respuesta:
>> n = 6 % número de dispositivos en un lote
>> x = [0 1 2 3 4 5 6] % número de dispositivos defectuosos
>> o0 = [ 10 17 14 6 3 0 0 ] % número de lotes con x dispositivos defectuosos
>> Nlot=sum(o0) % comprobación número total de lotes (50)

a)
>> ndef = sum(x.*o0) % número total de dispositivos defectuosos (75)
>> ntot = sum(o0) * n % número total de dispositivos (50 × 6 = 300)
>> pbar = ndef/ntot % proporción de dispositivos defectuosos (0.25 o 25%)

b)
>> e0 = Nlot*binopdf(x,n,pbar) % frecuencias absolutas esperadas
% ([ 8.90 17.80 14.83 6.59 1.65 0.22 0.01]
>> e = [e0(1:3) sum(e0(4:7))] % frecuencias absolutas esperadas
% acumulando los tres últimos intervalos
>> o = [o0(1:3) sum(o0(4:7))] % frecuencias absolutas observadas
% acumulando los tres últimos
% intervalos ([10 17 14 9])
>> chi2 e = sum((o-e).ˆ 2./e) % estadı́stico (0.2516)
>> chi2 = chi2inv(0.95,2) = 5.9915 % 5.99 valor de una distribución χ22
% que deja a su derecha α = 0.05

c)

αc = P (χ22 > 0.2516) = 1 − P (χ22 ≤ 0.2516)

>> 1 - chi2cdf(0.2516,2) % 0.8818

d)
Distribución binomial:

P (X ≥ 1) = 1 − P (X < 1) = 1 − P (X = 0) = 1 − b(0; 6, 0.25)

>> 1 - binopdf(0,6,0.25) % 0.8220


Distribución normal:
>> mu = 6*0.25 % 1. 5
>> sigma = sqrt(6*0.24*(1-0.24)) % 1.0607

P (X ≥ 1) ' P (X 0 ≥ 0.5) = 1 − P (X 0 ≤ 0.5) donde X 0 : N (1.5000, 1.0607)

>> 1 - normcdf(0.5,mu,sigma) % 0.8271

12