Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La probabilidad pedida es
− 2100 − 2000 ∼ 2100 − 2000
( 2100) = ( √ ) = 1 − Φ( )
120 120
= 1 − Φ(083) = 02033
e) La población en estudio está constituida por las 214488 sociedades offshore aparecidas
en los documentos filtrados. En este caso, la muestra es la propia población completa.
La variable estudiada en el análisis es =“Paraíso fiscal en el que está radicada la
sociedad offshore”, que es una variable cualitativa medida en escala nominal. El gráfico
presentado no constituye una representación completa de la distribución de frecuencias
de dicha variable, ya que solo se representan los 10 valores de la variable con mayo-
res frecuencias, que suponen un total de 213136 sociedades. Para que la distribución
de frecuencias de la variable estuviera completa, faltaría incluir las 1352 sociedades
que no se han incluido y que están en otros paraísos fiscales distintos de los diez más
frecuentes. Una forma de incluir estas sociedades en el gráfico y así completar la dis-
tribución de frecuencias, sería añadir una última categoría llamada “Otros” que iría
colocada en último lugar y recogería toda la cola desconocida de la distribución. De
este modo, lo que habríamos construído sería un Diagrama de Pareto, que constituye
una representación muy apropiada e informativa para la distribución de frecuencias de
dicha variable.
Estadística 1 E.I.I. Sede Paseo del Cauce
7 de junio de 2016
a) Un filamento que tenga 2 defectos, ¿con qué probabilidad será desechado por el sis-
tema? ¿Y si tiene 3 defectos?
b) Si los defectos del hilo metálico siguen un proceso de Poisson con un promedio de
30 defectos por metro, ¿qué probabilidad tiene un filamento de superar la inspección
óptica? Nota: Redondear las probabilidades que se manejen a cuatro cifras decimales,
y despreciar aquellos sucesos cuya probabilidad sea inferior a 10−4
c) El fabricante especifica que el tiempo de vida útil del aparato en cuestión sigue una
distribución exponencial, con una media de 42 años.
c.1) Si el fabricante ofrece una garantía de reposición de 20 días, ¿qué porcentaje de
aparatos deberá reponer gratuitamente?
c.2) Un comercial se queja al fabricante de que de los 116 aparatos que ha vendido,
5 se han estropeado antes de 20 días, lo que en su opinión está en contra de las
especificaciones y puede suponerle pérdidas en su cartera de clientes. ¿Tiene razones
para quejarse? Razonar la respuesta desde un punto de vista probabilístico
d) Cada aparato tiene un peso medio, una vez empaquetado, de 640, con una varianza
de 212 . Como promoción, se le adosa un obsequio tomado de un surtido en que el
peso medio es de 130 y la varianza, de 8202 . Se puede suponer que los pesos de
cada aparato y cada promoción son independientes, Hallar la probabilidad de que un
conjunto de 50 lotes (cada lote es 1 aparato + 1 promoción) supere los 39 de peso.
Problema 2 (4 puntos) Un fabricante de neumáticos está interesado en probar el
ahorro de combustible para dos patrones de huella diferentes A y B.
a) ¿Permiten los datos afirmar, a nivel = 005, que los neumáticos del tipo A aumentan,
en media más de una milla, las millas recorridas por galón respecto de los del tipo B?
b) Si el aumento medio fuera de 18 millas por galón, ¿con qué probabilidad detectaríamos
el aumento? Obtener el tamaño muestral necesario para que esta probabilidad sea 09.
c) ¿Permiten los datos afirmar que los neumáticos del tipo A aumentan, en media más
de una milla, las millas recorridas por galón respecto de los del tipo B? Calcular el
p-valor y dar la conclusión apropiada al nivel = 005.
d) ¿Existen evidencias de que el aumento en el número de millas recorridas por galón con
el neumático tipo A es superior a 18?
e) Comentar los resultados obtenidos con los dos experimentos. Explicar cuál es el ex-
perimento más fiable y por lo tanto la conclusión.
NOTA: En las tablas anteriores las desviaciones típicas que aparecen están corregidas y
podemos suponer que la hipótesis de normalidad es razonable donde la necesitemos.
Estadística 1 E.I.I. Sede Paseo del Cauce
7 de junio de 2016
Studentized residual
Slope ???? 0574944 ???? ????
= 501818 = 108036364 1
Analysis of Variance (Modelo 1)
-1
Source Sum of Sq. DF M.S. F Val Pr.F
Model ????? ?? ???? ???? ????? -3
Error ????? ?? ???? ????
Total ????? ?? -5
0 20 40 60 80 100
Tie m po
3 3
2 2
Studentized residual
Studentized residual
1 1
0 0
-1 -1
-2 -2
-3 -3
0 20 40 60 80 100 0 1 2 3 4 5
Tie m po log(Tiempo)
a) Sabiendo que la suma de cuadrados totales del primer modelo es 155239 y su MSE
vale 357126 completa las tablas de dicho modelo. ¿Es la regresión significativa a los
niveles habituales?
b) Considerar el modelo 1. Se decide exponer las semillas de lechuga al absorbente de
etileno durante 90 min. ¿Entre qué valores se moverá con una seguridad del 95% el
contenido promedio de etileno de esas semillas? Comentar el resultado obtenido.
c) Considerese ahora el modelo 2. A partir de este modelo, ¿se puede afirmar que un
incremento en 10 min de la exposición al absorbente disminuye en más de 03 unidades
el logaritmo del contenido en etileno en las semillas?
d) La observación que aparece más a la izquierda en el gráfico correspondiente al modelo
3 tiene un valor = 0678744. ¿Puede esa observación haber condicionado excesiva-
mente el ajuste? ¿Qué información extra podría ayudar a responder a esta pregunta?
e) Decidir de forma razonada cuál de los tres modelos ofrecidos es mejor.
Estadística 1 E.I.I. Sede Paseo del Cauce
Soluciones
7 de junio de 2016
El intervalo obtenido no parece muy útil. Hay que notar que el propio valor predicho,
que está en el centro del intervalo, es negativo lo que no tiene sentido ya que no puede
haber contenidos de etileno negativos. Hay que notar además que se está haciendo
un intervalo en 0 = 90 (que ni siquiera está en el extremo del intervalo de valores de
en los que se han hecho observaciones), con lo que al ser la pendiente de la recta
negativa todos los valores de mayores que 90 también tendrán valores predichos de
etileno negativos. Esto es obviamente un factor que hace que el propio modelo no sea
conveniente.
c) El modelo nos diría que el incremento medio de la variable respuesta es 10 · 1 si
incrementamos la variable regresora en 10 unidades. Por tanto, como queremos saber si
podemos afirmar que un incremento en 10 min de la exposición al absorbente disminuye
en más de 03 unidades el logaritmo del contenido en etileno en las semillas, debemos
realizar el siguiente contraste de hipótesis:
0 : 1 ≥ −0310
1 1 −0310
c1 − ∗
−00323287 − (−003)
1
= = = −31049
c1 )
( 000075
El p-valor es (9 −31049). En la tabla de la encontramos
0019 = 2821 00059 = 3250
Por tanto, tenemos que − = (9 −31049) = (9 31049) ∈ (0005 001)
con lo que rechazamos 0 a los niveles habituales. Por tanto, queda probada estadís-
ticamente la afirmación del enunciado.
d) El valor a partir del cual declaramos una observación como potencialmente influyente
por ser un posible outlier en la es 2(+1)
4
= 11 = 036364. El valor que tenemos
para la observación considerada es = 0678744 con lo que puede ser considerada
como potencialmente influyente. Sin embargo no disponemos del valor de
para esa observación por lo que no podemos estar seguros de que dicha observación sea
efectivamente influyente. Disponer de los valores de dicho diagnóstico nos permitiría
poder tomar una decisión sobre esta cuestión.
e) El gráfico de residuales del primer modelo presenta una clara curvatura por lo que en
dicho modelo no se verifica la hipótesis de la linealidad. Además como hemos visto
en el apartado b) algunas predicciones arrojadas por dicho modelo no tienen sentido
en el problema que se considera. Por su parte el tercer modelo también presenta
ciertas tendencias en su gráfico de residuales con al menos un punto potencialmente
influyente. Podría parecer que el segundo modelo también tiene cierta tendencia en
sus residuales pero, incluso de existir, esa tendencia es mucho menos clara y además
si se revisa el gráfico se ve que la observación que es potencialmente influyente por ser
un outlier en en el modelo 3 no está alejada en este caso en el eje por lo que
en este caso seguramente no sería un punto de influencia aunque sí un posible outlier
puesto que hay pocas observaciones en el modelo y el residual estudentizado de esta
observación es cercano a 3.
En resumen, si bien ninguno de los modelos parece indudablemente correcto el mo-
delo 2 tiene mucho mejores características que los otros dos.
Estadística 1 E.I.I. Sede Paseo del Cauce
4 de julio de 2016
a) Antes de hacer el análisis, el investigador debe asegurarse de que cada grupo de ratones
ha seguido la dieta correspondiente y que, por tanto, los ratones high fat diet pesan
en promedio más de un 30% más que los low fat diet, cantidad que fijamos por datos
históricos en 7 gramos. Si la varianza poblacional del peso de los ratones es conocida
e igual a 1 para ambos tipos, obtener una cota inferior de confianza de nivel 095 para
la diferencia de pesos medios. A la vista de la cota, ¿hay evidencia de que los ratones
high fat diet pesan más de 7 gramos más?
b) ¿Se puede afirmar a nivel 005 que es mayor la cantidad media de insulina en plasma
de los ratones high fat diet? Calcular el p-valor.
c) ¿Cuál es el error tipo II de la prueba anterior para una diferencia media en la insulina
en plasma de 0336?
d) Obtener el tamaño muestral necesario para que en esa prueba el incremento medio de
insulina en plasma de los ratones high fat diet sea detectado con probabilidad 090.
e) ¿Hay evidencia de que la cantidad media de insulina en plasma de los ratones high fat
diet es más de 055 mayor que la de los ratones low fat diet?
Estadística 1 E.I.I. Sede Paseo del Cauce
4 de julio de 2016
Datos:
--------------------
r v r v
1 279 4 316 Regresion con v y r:
1 276 4 312 -------------------------------------------------------
1 275 4 309 Least Squares Standard T
1 279 4 326 Parameter Estimate Error Statistic P-Value
2 291 8 341 Intercept 272,022 2,73159 99,5837 0,0000
2 289 8 338 Slope 9,21087 0,592565 15,5441 0,0000
2 287 8 343 --------------------------------------------------------
2 295 8 349
---------------------
a) ¿Sirve el número de remeros para explicar la velocidad de la embarcación? Dando por
correcta dicha regresión, ¿podemos afirmar que añadir dos remeros a la embarcación
aumenta su velocidad en más de 16 m/min trabajando a nivel = 005?
Por cálculos realizados usando mecánica de fluidos, se afirma que la velocidad de la em-
barcación debe ser proporcional a una potencia 19 del número de remeros, es decir, es
= 19 , donde es una constante que depende de las características de cada embar-
cación. Por tanto, se realizan las transformaciones = log y = log (los logaritmos
utilizados son neperianos) y se ajusta el modelo de regresión lineal = 0 + 1 +
obteniendose:
Regresion con x e y:
---------------------------------------------------------------------------
Least Squares Standard T
Parameter Estimate Error Statistic P-Value
Intercept 5,61414 0,00733345 765,552 0,0000
Slope 0,103772 0,00565521 18,3499 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model ******** ** *********** ****** 0,0000
Residual 0,00430236 ** ***********
Total (Corr.) 0,10778 **
---------------------------------------------------------------------------
Con este nuevo modelo se consigue un mejor plot de residuales.
b) Completa la tabla anterior y da el 2 de esta regresión
c) Realiza un test de nivel = 005 para ver si la hipótesis = 19 es razonable.
d) Obtén, usando el segundo modelo ajustado, una estimación de la velocidad alcanzada
por una embarcación con 4 remeros.
Estadística 1 E.I.I. Sede Paseo del Cauce
Soluciones
4 de julio de 2016
0 : 1 − 2 = 055
0 : 1 − 2 055
El estadístico-test para el contraste es
1 − 2 − ∆0 163 − 068 − 055
0 = q = q = 269374
11 + 12 1
042 16 + 161