Está en la página 1de 5

Estadı́stica II

Examen Final 15/01/2015


Soluciones

Responda a las preguntas siguientes en los cuadernillos de la Universidad


Utilice diferentes cuadernillos para responder a cada uno de los ejercicios
Indique claramente en cada cuadernillo su nombre, número de orden en el grupo y grupo reducido de clase

1. (3,5 puntos) Se ha llevado a cabo una encuesta con el objetivo de estudiar el gasto en educación univer-
sitaria pública de los hogares durante el curso académico 2011/2012, relativo tanto a bienes y servicios
adquiridos en los centros educativos como aquellos ocasionados fuera de ellos pero asociados a la educa-
ción. A continuación se muestra un resumen de los datos obtenidos sobre el gasto por alumno (en euros)
en cada uno de los hogares encuestados (en cada hogar encuestado hay una persona cursando estudios
universitarios):

Se obtuvo además que en uno de cada cinco hogares el alumno asistió a clases de apoyo fuera de la univer-
sidad (academias), con un gasto medio por estudiante de 700 euros. Contesta a las siguientes preguntas
indicando claramente la variable de interés y las hipótesis sobre la misma y sobre la muestra que asumes:
a) (0,25 puntos) Calcula una estimación insesgada del gasto medio por alumno. ¿Cuál es su error
estándar de estimación (desviación tı́pica del estimador)?
b) (0,25 puntos) Indica, sin realizar cálculos adicionales, si el error estándar de estimación serı́a menor
o mayor que el obtenido en el apartado anterior en cada uno de los casos siguientes (justifica tu
respuesta):
1) La desviación estándar de la muestra es de 1100 euros (los demás valores no varı́an)
2) La muestra contiene 500 hogares (los demás valores no varı́an)
c) (0,75 puntos) Calcula un intervalo de confianza al 99 % para el gasto medio por alumno. Interpreta
el resultado obtenido.
d ) (0,5 puntos) Si se quiere reducir la amplitud del intervalo de confianza del apartado anterior para que
sea de como mucho 200 euros, ¿con qué tamaño muestral deberı́amos de trabajar? Para contestar a
esta pregunta asumimos que el gasto medio y la cuasi-desviación tı́pica muestrales no varı́an y que
el nivel de confianza sigue siendo del 99 %.
e) (1,25 puntos) Contrasta el consenso actual acerca de que el porcentaje de alumnos que acuden a
academias es superior al 18 %, con un nivel de significación del 1 %.
1) Indica la variable de interés ası́ como los supuestos que asumes sobre la misma y sobre la muestra.
2) Define las hipótesis nula y alternativa.
3) Define el estadı́stico del contraste y su distribución cuando la hipótesis nula es cierta.
4) Obtén la región de rechazo del contraste y comenta la conclusión obtenida.
5) A partir de tu conclusión anterior, y sin hacer cálculos adicionales, ¿podrı́as indicar una cota
para el p-valor de la muestra?
f ) (0,25 puntos) Calcula la potencia del contraste del apartado anterior si el verdadero porcentaje de
alumnos que acuden a academias es del 18 %. ¿Qué significado tiene dicha potencia en este caso?
g) (0,25 puntos) A partir del resultado del apartado anterior, y sin hacer cálculos adicionales, ¿qué puedes
decir de la potencia del contraste si el porcentaje verdadero fuese del 15 %? ¿Y si fuese del 25 %?

Solución.
a) La variable de interés es X = gasto por alumno (para sus estudios universitarios durante el curso
2011/12). La estimación del gasto medio por alumno basada en la media muestral, que es un estimador
insesgado de la media poblacional, es de 1395,8130 euros por alumno. Su error estándar de estimación
es (de la fila “Error tı́pico” de la tabla) 40,4105 euros.

b) El error estándar tiene la forma s/ n.
1) En ese caso, la cuasi-desviación ha disminuido y, por tanto, el error estándar de estimación
también disminuye.
2) En ese caso, el tamaño ha disminuido y, por tanto, el error estándar de estimación aumenta.
c) La variable de interés es X = gasto por alumno (para sus estudios universitarios durante el curso
2011/12). Se ha tomado una m.a.s. de tamaño n = 1000. No podemos asumir normalidad, pero el
tamaño muestral es grande (podemos aplicar el TCL). La estimación puntual del gasto medio por
alumno es de 1395, 8130 euros por alumno. Su error estándar de estimación es de 40, 4105 euros. El
valor crı́tico de la normal es zα/2 = z0,005 = 2,57. Luego el intervalo de confianza es:

IC99 % (µ) = (1395, 8130 ± 2,57 · 40, 4105) = (1291,9580; 1499,6680)

Con una confianza del 99 % el gasto medio por alumno para sus estudios universitarios durante el
curso académico 2011/12 está entre los 1291,9580 euros y los 1499,6680 euros. Es decir, si aplicamos
este procedimiento a un número muy elevado de muestras, en promedio el 99 % de las veces el valor
de la media de la población caerá dentro del intervalo calculado.
1277,8914
d ) En ese caso la amplitud del intervalo de confianza vendrı́a dada por 2 · 2,57 · √
n
. Luego,
 2,57 · 1277,8914 2
n≥ = 1078, 5844
100
Por tanto, n debe de ser al menos 1079.
e) 1) La variable de interés es Y que toma el valor 1 si un alumno acude a academias, y 0 en caso
contrario. Y ∼ Ber(p), siendo p = probabilidad de que un alumno acuda a academias. Se trata
de una m.a.s, con n = 1000 lo suficientemente grande como para aplicar el TCL.
2) Nos piden realizar el contraste:

H0 : p ≤ 0,18
H1 : p > 0,18

3) El estadı́stico del contraste es


p̂ − 0,18
T =q ,
0,18·0,82
1000

siendo p̂ la proporción muestral. Su distribución cuando H0 es cierta es aproximadamente N (0, 1).


4) La región de rechazo es RR0,01 = {T > z0,01 }. En este caso, p̂ = 0,2 y t = 1,6462 < 2,32 = z0,01 .
No hay evidencia estadı́stica suficiente como para rechazar H0 . Por tanto, los datos no apoyan
el consenso actual al 1 % de significación.
5) Al no rechazar, el p-valor de la muestra es superior al 0,01 (es P (T > t) ≈ P (Z > 1,6462) =
0,04986).
f ) La potencia en el valor de contraste p0 = 0,18 es el nivel de significación:

Pot(0,18) = P {Rechazar H0 | p = 0,18} = α = 0,01.

g) Para este contraste la función de potencia es creciente: si p = 0,15 < 0,18 entonces Pot(0,15) < 0,01.
Para p = 0,25 > 0,18 entonces Pot(0,25) > 0,01.
2. (2 puntos) Un banco desea llevar a cabo un estudio de satisfacción de sus clientes con los servicios
financieros que ofrece. Para ello ha recogido una muestra (aleatoria simple) de respuestas de 14 clientes
en una zona geográfica. El promedio de la puntuación de satisfacción obtenida (en una escala de 0 a 10)
para esta muestra ha sido de 4,33, con una cuasivarianza muestral de 6,13.
Se ha recogido una segunda muestra de 17 clientes de otra zona, con un promedio de puntuación de
satisfacción igual a 3,08 y una cuasivarianza muestral de 3,43.
El banco desea llevar a cabo una comparación de las puntuaciones en ambas zonas. Para ello, ha obtenido
los siguientes resultados en Excel:

a) (0,5 puntos) ¿Qué debes suponer para poder llevar a cabo la comparación deseada?
b) (0,5 puntos) Con estos datos, ¿puedes llegar a la conclusión de que las varianzas de ambas poblaciones
son iguales, para un nivel de significación del 5 %? Indica las hipótesis nula y alternativa y comenta
tus conclusiones.
c) (0,5 puntos) ¿Puedes llegar a la conclusión de que el nivel de satisfacción promedio en la segunda
zona es significativamente menor que en la primera zona? Indica las hipótesis nula y alternativa del
contraste y comenta tus conclusiones para un nivel de significación del 5 %.
d ) (0,5 puntos) Indica si las siguientes afirmaciones son verdaderas o falsas, justificando tus respuestas:
1) Para dos muestras aleatorias simples de dos poblaciones normales independientes con la misma
varianza, el error estándar para la diferencia de las medias decrece si el tamaño muestral de
cualquiera de las dos muestras aumenta. Suponemos que todos los demás valores permanecen
constantes.
2) Considera un contraste unilateral para la diferencia de las medias de dos poblaciones normales
con la misma varianza. Suponemos que ambas muestras tienen el mismo tamaño. La región
de rechazo del contraste basado en la t de Student es mayor que la región de rechazo del test
aproximado basado en el TCL.

Solución.
a) Suponemos muestras aleatorias independientes de dos poblaciones independientes. Suponemos tam-
bién distribuciones normales para ambas poblaciones. Para contrastar la igualdad de medias, supo-
nemos que las varianzas son iguales en ambas poblaciones.
b) Hipótesis nula y alternativa:

H0 : σ12 = σ22
H1 : σ12 6= σ22

De la primera tabla Excel: cuasivarianzas s21 = 6,13 y s22 = 3,43, estadı́stico del contraste, f = 6,13
3,43 =
1,7864.
De la tabla Excel, los valores crı́ticos (correspondiente a los cuantiles F13;16;0,025 y F13;16;0,975 ) son
2,8506 y 0,3304. Como 2,8506 > 1,7864 > 0,3304, nuestra muestra no pertenece a la región de rechazo,
y no podemos rechazar la hipótesis de igualdad de las varianzas.
c) Hipótesis nula y alternativa:

H0 : µ1 ≤ µ2
H1 : µ1 > µ2
Como las varianzas no son significativamente diferentes entre ambas poblaciones, podemos aplicar el
contraste de la t de Student.
De la tabla Excel, el p-valor para el contraste unilateral es 0,05997, mayor que el nivel de significación
indicado 0,05. Por tanto, no podemos rechazar la hipótesis nula de que la segunda zona tenga un
nivel de satisfacción significativamente inferior al de la primera zona.
d ) Las afirmaciones son:
1) Verdadera. La expresión del cuadrado del error estándar es

n1 s21 + n2 s22 1
 
1 1 2 1 2
+ = s + s .
n1 + n2 n1 n2 n2 1 n1 2

2) Falsa. Los valores crı́ticos de los contrastes son (sin pérdida de generalidad, podemos suponer un
test para la cola derecha) t2n−2;α para el test basado en la t de Student y zα para el test basado
en el TCL. Como t2n−2;α > zα , la región de rechazo del contraste de la t de Student es menor.
3. (4,5 puntos) Se estima que la penetración en un mercado (nacional) de un determinado bien de consumo
duradero (en unidades vendidas anualmente por 100 habitantes) guarda una estrecha relación con la renta
del consumidor. Para constatarlo, se ha realizado una regresión lineal simple para 15 paı́ses europeos entre
la penetración del bien (variable Y ) y el PIB por habitante en miles de euros, como variable explicativa.
Se tienen los siguientes datos:
X X X X X X
yi = 6,09, xi = 311,83, xi yi = 160,12, yi2 = 3,14, x2i = 8317,06, e2i = 0,0514
i i i i i i

a) (0,5 puntos) Especifica y estima el modelo de regresión lineal Y = f (X).


b) (0,5 puntos) Realiza el contraste adecuado para determinar si la penetración del bien depende lineal-
mente del PIB por habitante con un nivel de significación del 5 %. Interpreta el resultado obtenido.
c) (0,75 puntos) ¿Cuál serı́a el pronóstico de penetración del bien para un paı́s que tuviese un PIB por
habitante de 30.000 euros? Realiza una estimación puntual y por intervalos (95 % de confianza) para
dicho pronóstico.
En un estudio posterior, se ha intentado relacionar la penetración de este bien con el salario medio inter-
profesional (SMI, en miles de euros), por considerarla una variable más próxima a la capacidad adquisitiva
del consumidor que el PIB por habitante. También se incluyó, como segunda variable explicativa, el precio
del bien (en euros) en los distintos paı́ses europeos de la muestra. Los resultados son los siguientes:

Teniendo en cuenta que la variable X1 hace referencia al SMI y X2 al precio, responde a los siguientes
apartados:
d ) (0,5 puntos) Completa los valores indicados con “XXXX” en la tabla anterior.
e) (0,5 puntos) Contrasta la significatividad conjunta de los parámetros asociados a las variables expli-
cativas.
f ) (0,5 puntos) Calcula un intervalo de confianza al 90 % para el coeficiente de X2 . Interpreta el resultado
obtenido.
g) (0,5 puntos) ¿Cuál es la expresión del estimador insesgado de la varianza del error? ¿Cuál es su
estimación para esta muestra?
h) (0,5 puntos) ¿Cuál es la distribución de probabilidad de los estimadores de los parámetros asociados
a las variables explicativas? Indica tanto el estimador como su distribución.
i ) (0,25 puntos) A la vista de los resultados anteriores, ¿podrı́a eliminarse del modelo alguna de las
variables explicativas? Justifica tu respuesta.
Solución.
a) El modelo (de regresión lineal simple) a ajustar es yi = β0 + β1 xi + ui , o alternativamente ŷi =
β̂0 + β̂1 xi .
Para ajustar los valores de los parámetros por mı́nimos cuadrados empleamos las fórmulas
cov(x, y) 160,12 − 311,83 · 6,09/15
β̂1 = = = 0,01827,
s2x 8317,06 − 311,832 /15
β0 = ȳ − β̂1 x̄ = (6,09 − 0,01827 · 311,83)/15 = 0,02622
b) El contraste a llevar a cabo es
H0 : β1 = 0
H1 : β1 6= 0
El estadı́stico a emplear y su valor para la muestra indicada son
β̂1 0,01827
T =p 2
, t= p = 12,443
sR /(n − 1)s2x (0,0514/13)/(8317,06 − 311,832 /15)
El estadı́stico sigue una distribución t de Student con n − 2 = 13 grados de libertad, por lo que el
valor crı́tico es t13;0,025 = 2,160. Como t > t13;0,025 , rechazamos H0 y concluimos que la penetración
del bien depende linealmente del PIB por habitante con un nivel de significación del 5 %.
c) Para realizar este pronóstico utilizamos las fórmulas
ŷ0 = β̂0 + β̂1 x0 = 0,02622 + 0,01827 · 30 = 0,5743
s !
1 (x0 − x̄)2
IC(ŷ0 ) = ŷ0 ∓ t13;0,025 sR 1 + + = (0,4310; 0,7176)
15 (n − 1)s2x
pP
Hemos utilizado sR = 2
i ei /13 = 0,00395.
d ) Los valores pedidos se pueden obtener como:
Est. F = 0,32454/0,001223 = 265,2745
Err. Tip. X1 = 0,139442/22,878830 = 0,006095
e) Para llevar a cabo este contraste nos basamos en el valor del estadı́stico F de la tabla ANOVA.
En dicha tabla encontramos que su p-valor es menor que 10−6 , luego concluimos que el modelo es
significativo para cualquier nivel de significación razonable.
f ) Este intervalo de confianza vendrá dado por
β̂2 ∓ t12;0,95 × Error tı́pico X2 = −0,000147 ∓ 1,782 · 0,000034 = (−0,00002076; −0,00000864)
Si se repite el experimento de ajuste del modelo a partir de muestras como las indicadas un número
elevado de veces, en un 90 % de los casos el valor (poblacional) del coeficiente de X2 estará en el
intervalo calculado. Como nuestro intervalo no contiene al cero, para un nivel de significación del
10 % rechazamos que la variable dependiente no dependa del valor de X2 .
g) Un estimador insesgado de la varianza del error es la varianza residual,
Pn 2
2 i=1 ei
sR = = 0,001223
n−k−1
h) Las distribuciones de los estimadores son
β̂j ∼ N (βj , σj ), j = 1, 2,
donde σj2 es el j-ésimo elemento diagonal de σ 2 (X T X)−1 y σ 2 denota la varianza de los errores.
Por otra parte, las cantidades pivotales (y sus distribuciones) son
β̂j − βj
T = ∼ tn−k−1 , j = 1, 2
sj (β̂j )
i ) Para un nivel de significación del 5 % (por ejemplo) la respuesta serı́a no, ya que ninguno de los
p-valores de los contrastes de significación individuales de los parámetros es superior a 0,05. En
particular, sus p-valores son < 10−6 para X1 y 0,001013 para X2 .

También podría gustarte