Está en la página 1de 21

Estadística 1 E.I.I.

Sede Paseo del Cauce


Examen Intermedio. 20 de abril de 2016
Problema. El escándalo estallado recientemente conocido como "Panama papers" hace
referencia a la filtración de más de 115 millones de documentos del despacho de abogados
Mossack Fonseca, que muestran la actividad mantenida durante más de 40 años por
214488 sociedades offshore (compañías de titulares anónimos, registradas en algún país
en el que no realizan ninguna actividad económica, a las que se suele recurrir para ocultar
patrimonio, blanquear dinero o evadir impuestos).
a. Según estimaciones, el 05% de las sociedades aparecidas en los papeles tendrían titu-
lares españoles. Si analizamos una muestra al azar de 800 compañías y encontramos
que hay más de 5 con titulares españoles, calcular la probabilidad de que haya menos
de 10 con titulares españoles.
b. Analizada por la Inspección de Hacienda una muestra aleatoria de 120 de las sociedades
afectadas, se encontró que al menos 40 de ellas estaban en una situación fiscal irregu-
lar. Sin embargo, el 80% de los titulares de estas sociedades han declarado no haber
cometido ninguna irregularidad. Valora el grado de credibilidad de estas declaraciones
a la luz de los resultados de la inspección.
c. En un país nórdico el 97% de los titulares afirmaron no haber cometido irregularidades.
De ser eso cierto, ¿cuántas compañías con titular de ese país nórdico hay que inspec-
cionar para que la probabilidad de encontrar al menos 2 con irregularidades fiscales sea
superior a 095?
d. El fraude fiscal cometido por las actividades ilícitas de cada una estas compañías es
una variable aleatoria cuya distribución presenta una fuerte asimetría positiva y cuya
esperanza matemática y varianza se estiman en 5  y 36 2 , respectivamente.
Si hay en total 400 compañías de titulares españoles, calcula aproximadamente la
probabilidad de que la cantidad total defraudada a la Hacienda española supere los
2100 .
e. En la prensa se ha publicado el siguiente gráfico relativo a las 214488 sociedades offshore
aparecidas en los documentos filtrados. Indica cuál es la población en dicho estudio,
cuál es la variable que se está representando y de qué tipo es dicha variable. Indica si
se puede decir que el gráfico constituye una representación completa de la distribución
de frecuencias de dicha variable y porqué. En el caso de que la respuesta sea negativa,
indica alguna manera sencilla que consideres la más apropiada para completar dicha
distribución de frecuencias sin tener más información adicional a la que ya tienes y
reconstruye el gráfico que resultaría.
Estadística 1 E.I.I. Sede Paseo del Cauce
Soluciones
Examen Intermedio. 20 de abril de 2016

a) Estamos ante un Proceso de Bernoulli consistente en el análisis de las sociedades


aparecidas en los “Panama papers”, comprobando si son “españolas” o “no españolas”,
lo cual ocurre con probabilidades  = 0005 y  = 0995, respectivamente. La variable
aleatoria 1 =“Número de sociedades españolas aparecidas en una muestra de 800
sociedades analizadas” sigue la ley binomial, 1 Ã ( ) = (800 0005). Como
 = 800 es grande,  = 0005  01 es pequeño y  =  = 4 ∈ (1 10) es moderado,
podremos utilizar la aproximación binomial ∼ Poisson, ( ) ≈ ().
Se nos pide calcular la probabilidad condicionada  (1  101  5). Utilizando
la aproximación mencionada y las tablas de la distribución de Poisson, obtenemos:
 (5  1  10)  (1 ≤ 9) −  (1 ≤ 5)
 (1  101  5) = =
 (1  5) 1 −  (1 ≤ 5)
0992 − 0785
= = 09628
1 − 0785
b) Si fuera cierta la información que se desprende de las declaraciones realizadas por los
titulares de estas sociedades y hubiera un 80% de ellas en situación correcta desde el
punto de vista fiscal, entonces estaríamos ante un nuevo Proceso de Bernoulli consis-
tente en el análisis de las sociedades españolas aparecidas en los “Panama papers”,
comprobando si su situación fiscal es “irregular” o “regular”, lo cual ocurriría con
probabilidades  = 02 y  = 08, respectivamente. La variable aleatoria 2 =“Número
de sociedades en situación fiscal irregular aparecidas en una muestra de 120 sociedades
españolas analizadas” seguiría la ley binomial, 2 Ã ( ) = (120 02). Como
 = 120 es grande y y  = 192  5, podremos utilizar la aproximación binomial ∼

normal, ( ) ≈ ( ).
Se nos pide calcular y valorar la probabilidad  (2 ≥ 40). Utilizando la aprox-
imación mencionada, la corrección por continuidad y las tablas de la distribución
normal, obtenemos:
2 −  40 − 24 ∼ 40 − 05 − 24
 (2 ≥ 40) =  ( √ ≥ √ ) = 1 − Φ( √ )
 192 192
= 1 − Φ(354) = 00002
Por tanto, a la luz de la muestra son muy poco creíbles las declaraciones de los
titulares españoles de las sociedades y seguramente la tasa de sociedades en situación
irregular será más alta, ya que lo observado es poco compatible con las declaraciones.
c) Ahora tendríamos un nuevo Proceso de Bernoulli consistente en el análisis de las
sociedades del país nórdico en cuestión aparecidas en los “Panama papers”. Compro-
bamos si su situación fiscal es “irregular” o “regular”, lo cual ocurre con probabili-
dades  = 003 y  = 097, respectivamente. La variable aleatoria 3 =“Número de
sociedades en situación fiscal irregular aparecidas en una muestra de n sociedades del
país nórdico analizadas” seguiría la ley binomial, 3 Ã ( 003), donde  es descono-
cido. Se nos pide hallar el valor de  para que  (3 ≥ 2)  095, o lo que es lo mismo
 (3 ≤ 1) ≤ 005.
Como presumimos que el  desconocido podría ser grande, al ser  = 003  01
pequeño, vamos a intentar utilizar la aproximación binomial ∼ Poisson, ( ) ≈
(), comprobando después si es moderado, es decir si  =  ∈ (1 10).
En las tablas de la distribución de Poisson, el valor más pequeño que encontramos
para  satisfaciendo  (() ≤ 1)  005 es  = 5, que aparece como  ((5) ≤ 1) =
004. Entonces tendríamos

 =  = 5 ⇒  = = 5003 = 16667

es decir, necesitaríamos una muestra de al menos  = 167 sociedades.
Nota: Si se hubiera intentado abordar el problema mediante la aproximación bino-
mial ∼ normal, se habría obtenido  = 174, de modo que  = 50634  5, por lo
que también esta aproximación habría sido válida con el criterio que manejamos. Por
otra parte, si utilizásemos unas tablas de la distribución de Poisson continuas en el
valor de , o programásemos dicha distribución, obtendríamos un valor más ajustado
 = 47439, que implicaría que  = 159 sería suficiente. Finalmente, la solución ex-
acta, usando directamente la distribución binomial (lo cual es muy fácil en este caso),
conduce a un valor de  = 157, que nos habla de que la aproximación de Poisson es
realmente la más indicada en este caso.
d) Llamemos  =“Cantidad total defraudada por las 400 compañías españolas que apare-
cen en los papeles”. Podemos expresar esta variable como
X400
 =  
=1
siendo  =“Cantidad total defraudada por la compañía española n i que aparece en los
papeles”,  = 1  400. Nos dicen que  =  = 5 y  2 = 362 y suponemos
que estas variables son independientes. Al poder expresar la variable  como suma de
un número grande de variables aleatorias i.i.d., podemos aplicar el Teorema Central
del Límite para concluir que
X400

 =  Ã (400 400)
=1

La probabilidad pedida es
 −  2100 − 2000 ∼ 2100 − 2000
 (  2100) =  ( √  ) = 1 − Φ( )
 120 120
= 1 − Φ(083) = 02033
e) La población en estudio está constituida por las 214488 sociedades offshore aparecidas
en los documentos filtrados. En este caso, la muestra es la propia población completa.
La variable estudiada en el análisis es  =“Paraíso fiscal en el que está radicada la
sociedad offshore”, que es una variable cualitativa medida en escala nominal. El gráfico
presentado no constituye una representación completa de la distribución de frecuencias
de dicha variable, ya que solo se representan los 10 valores de la variable con mayo-
res frecuencias, que suponen un total de 213136 sociedades. Para que la distribución
de frecuencias de la variable estuviera completa, faltaría incluir las 1352 sociedades
que no se han incluido y que están en otros paraísos fiscales distintos de los diez más
frecuentes. Una forma de incluir estas sociedades en el gráfico y así completar la dis-
tribución de frecuencias, sería añadir una última categoría llamada “Otros” que iría
colocada en último lugar y recogería toda la cola desconocida de la distribución. De
este modo, lo que habríamos construído sería un Diagrama de Pareto, que constituye
una representación muy apropiada e informativa para la distribución de frecuencias de
dicha variable.
Estadística 1 E.I.I. Sede Paseo del Cauce
7 de junio de 2016

Problema 1 (3 puntos) Cierto tipo de aparato eléctrico incorpora filamentos de 1


de longitud obtenidos al cortar un hilo metálico que presenta defectos distribuidos aleato-
riamente. Un sistema óptico inspecciona cada filamento, y lo desecha de inmediato si
detecta algún defecto. La probabilidad de que un defecto le pase desapercibido es de 012
y los defectos se detectan de forma independiente unos de otros.

a) Un filamento que tenga 2 defectos, ¿con qué probabilidad será desechado por el sis-
tema? ¿Y si tiene 3 defectos?

b) Si los defectos del hilo metálico siguen un proceso de Poisson con un promedio de
30 defectos por metro, ¿qué probabilidad tiene un filamento de superar la inspección
óptica? Nota: Redondear las probabilidades que se manejen a cuatro cifras decimales,
y despreciar aquellos sucesos cuya probabilidad sea inferior a 10−4

c) El fabricante especifica que el tiempo de vida útil del aparato en cuestión sigue una
distribución exponencial, con una media de 42 años.
c.1) Si el fabricante ofrece una garantía de reposición de 20 días, ¿qué porcentaje de
aparatos deberá reponer gratuitamente?
c.2) Un comercial se queja al fabricante de que de los 116 aparatos que ha vendido,
5 se han estropeado antes de 20 días, lo que en su opinión está en contra de las
especificaciones y puede suponerle pérdidas en su cartera de clientes. ¿Tiene razones
para quejarse? Razonar la respuesta desde un punto de vista probabilístico

d) Cada aparato tiene un peso medio, una vez empaquetado, de 640, con una varianza
de 212 . Como promoción, se le adosa un obsequio tomado de un surtido en que el
peso medio es de 130 y la varianza, de 8202 . Se puede suponer que los pesos de
cada aparato y cada promoción son independientes, Hallar la probabilidad de que un
conjunto de 50 lotes (cada lote es 1 aparato + 1 promoción) supere los 39 de peso.
Problema 2 (4 puntos) Un fabricante de neumáticos está interesado en probar el
ahorro de combustible para dos patrones de huella diferentes A y B.

En un primer experimento se equipan 18 automóviles con neumáticos con huella de tipo


A y otros 18 con neumáticos con huella del tipo B. Cada automóvil se condujo mil millas.
El resumen de las millas recorridas por galón para los dos tipos de huella es:
1 2  18 Media Desv. Típic.
Huella A 24.1 22.6  24.6 =24.4  =2.0 

Huella B 21.9 23.2  20.3  =22.6


  =1.6 

Diferencias 2.2 -0.6  4.3 =1.8  =2.52 

a) ¿Permiten los datos afirmar, a nivel  = 005, que los neumáticos del tipo A aumentan,
en media más de una milla, las millas recorridas por galón respecto de los del tipo B?
b) Si el aumento medio fuera de 18 millas por galón, ¿con qué probabilidad detectaríamos
el aumento? Obtener el tamaño muestral necesario para que esta probabilidad sea 09.

En un segundo experimento se seleccionan al azar 18 automóviles y en cada uno de


ellos se conducen los neumáticos de cada tipo de huella durante mil millas. Las millas
recorridas por galón de combustible se muestran en la tabla siguiente:
1 2  18 Media Desv. Típic.
Huella A 22.6 19.9  27.1 =23.5  =1.8 

Huella B 20.4 18.6  25.8  =22.1


  =1.4 

Diferencias 2.2 1.3  1.3 =1.4  =0.87 

c) ¿Permiten los datos afirmar que los neumáticos del tipo A aumentan, en media más
de una milla, las millas recorridas por galón respecto de los del tipo B? Calcular el
p-valor y dar la conclusión apropiada al nivel  = 005.
d) ¿Existen evidencias de que el aumento en el número de millas recorridas por galón con
el neumático tipo A es superior a 18?
e) Comentar los resultados obtenidos con los dos experimentos. Explicar cuál es el ex-
perimento más fiable y por lo tanto la conclusión.
NOTA: En las tablas anteriores las desviaciones típicas que aparecen están corregidas y
podemos suponer que la hipótesis de normalidad es razonable donde la necesitemos.
Estadística 1 E.I.I. Sede Paseo del Cauce
7 de junio de 2016

Problema 3 (3 puntos) En el artículo “Ethilene Synthesis in Lettuce seeds: Its Phys-


iological Significance” (Plant Physiology, 1972:719-722), se estudió el contenido de etileno
de semillas de lechuga (en  peso seco) en función del tiempo de exposición (en )
a un absorbente de etileno para 11 valores del tiempo. Se realizó un análisis de regresión
obteniendose los modelos siguientes. Re sidua l Plot
Etileno = 291,298 - 3,37551*Tiempo
Parameter Estimates (Modelo 1)
Variable Estim. St. Err. t Val. Pr.|T| 5

Intercept ???? 340159 ???? ????


3

Studentized residual
Slope ???? 0574944 ???? ????
 = 501818  = 108036364 1
Analysis of Variance (Modelo 1)
-1
Source Sum of Sq. DF M.S. F Val Pr.F
Model ????? ?? ???? ???? ????? -3
Error ????? ?? ???? ????
Total ????? ?? -5
0 20 40 60 80 100
Tie m po

Parameter Estimates (Md. 2) Parameter Estimates (Md. 3)


Variable Estim. St. Err. t Val. Pr.|T| Variable Estim. St. Err. t Val. Pr.|T|
Intercept 59405 004438 13386 00000 Intercept 496048 12 741 38 933 00000
Slope −00323287 000075 −43105 00000 Slope −106006 3 4421 −30 797 00000
Re sidua l Plot Residual Plot
log(Etileno) = 5,9405 - 0,0323287*T iempo Etileno = 496,048 - 106,006*log(Tiempo)

3 3

2 2
Studentized residual
Studentized residual

1 1

0 0

-1 -1

-2 -2

-3 -3
0 20 40 60 80 100 0 1 2 3 4 5
Tie m po log(Tiempo)

a) Sabiendo que la suma de cuadrados totales del primer modelo es 155239 y su MSE
vale 357126 completa las tablas de dicho modelo. ¿Es la regresión significativa a los
niveles habituales?
b) Considerar el modelo 1. Se decide exponer las semillas de lechuga al absorbente de
etileno durante 90 min. ¿Entre qué valores se moverá con una seguridad del 95% el
contenido promedio de etileno de esas semillas? Comentar el resultado obtenido.
c) Considerese ahora el modelo 2. A partir de este modelo, ¿se puede afirmar que un
incremento en 10 min de la exposición al absorbente disminuye en más de 03 unidades
el logaritmo del contenido en etileno en las semillas?
d) La observación que aparece más a la izquierda en el gráfico correspondiente al modelo
3 tiene un valor  = 0678744. ¿Puede esa observación haber condicionado excesiva-
mente el ajuste? ¿Qué información extra podría ayudar a responder a esta pregunta?
e) Decidir de forma razonada cuál de los tres modelos ofrecidos es mejor.
Estadística 1 E.I.I. Sede Paseo del Cauce
Soluciones
7 de junio de 2016

Problema 1 a) Si el filamento tiene 2 defectos, 1 y 2 , y si denotamos por  al suceso


‘el sistema detecta el defecto  ’, entonces el sistema desechará el filamento si y solo si se
verifica 1 ∪2 ; por el contrario, aprobará el filamento si se verifica 1 ∪ 2 = ̄1 ∩̄2 ,
es decir, si no detecta ni uno ni otro defecto. Al ser sucesos independientes la detección
de defectos distintos (así como su no detección), la probabilidad de la intersección se
calcula sencillamente como el producto de las respectivas probabilidades. Tenemos
así:
(desechar el filamento) = 1 − (̄1 ∩ ̄2 ) = 1 − (̄1 ) (̄2 )
= 1 − 0122 = 09856
Si el filamento tiene 3 defectos, procediendo de modo totalmente análogo obtenemos:
(desecharlo) = 1 − (̄1 ∩ ̄2 ∩ ̄3 ) = 1 − (̄1 ) (̄2 ) (̄3 )
= 1 − 0123 = 09983
b) La probabilidad de que un filamento dado supere la inspección es diferente según cuál
sea el número de defectos que tenga. En concreto, y denotando por  la variable
aleatoria ‘número de defectos del filamento’ y por  el suceso ‘el filamento supera la
inspección’, tenemos:
 ( / = 0) = 1 pues en ese caso no se desecha
 ( / = 1) = 012
 ( / = 2) = 0122
 ( / = 3) = 0123
 ( / = 4) = 0124  etc. (ver apdo.(a))
Por otra parte, sabiendo que los defectos aparecen según un proceso de Poisson
con una tasa de 30 defectos/metro (esto es, 03 defectos/cm.) y que, por tanto, es
 Ã P(03), podemos calcular la probabilidad : ( = ) = −03 03 ! para los
sucesivos valores de , y resulta:
( = 0) = 07408; ( = 1) = 02222; ( = 2) = 00333;
( = 3) = 00033; ( = 4) = 00003.
El valor  = 5 tiene ya probabilidad inferior a 10−4 , y valores mayores son aún más
improbables, así que despreciamos los correspondientes sucesos =.
Para hallar la probabilidad de que un filamento cualquiera supere la inspección
aplicamos la fórmula de las probabilidades totales:
() = ( = 0) ( / = 0) + ( = 1) ( / = 1) +    + ( = 4) ( / = 4)
= 07408 · 1 + 02222 · 012 + 00333 · 0122 + 00033 · 0123 + 00003 · 0124
= 07679.
c) La variable aleatoria T=‘Tiempo de vida útil del aparato’ sigue una distribución ex-
1
ponencial de parámetro  = ( )
, cuyo valor numérico será diferente según qué unidad
de tiempo elijamos manejar. Si, por ejemplo, expresamos T en días, entonces resulta
1 1
 = 422·365 = 1553 .
c.1) Para calcular qué proporción de aparatos ha de reponer gratis el fabricante si la
garantía cubre 20 días, hemos de hallar la probabilidad que tiene un aparato de
estropearse dentro de ese período,
Z  es decir, (  20), siendo
¤
(  ) = − = −− 0 = 1 − −
0
1
y= 1553
de modo que
20
(  20) = 1 − − 1553 = 00128
lo que significa que el 128% de los aparatos tendrán que ser sustituidos sin coste
para el comprador.
c.2) Si el comercial protesta, es porque número de aparatos estropeados antes de cumplir
20 días le parece excesivo en relación a lo que cabía esperar a la vista de las especi-
ficaciones. Para saber si su queja está justificada, calcularemos bajo esas especifica-
ciones la probabilidad de obtener un resultado igual o peor que el que realmente se
ha producido.
Ver si un aparato se estropea en los 20 días siguientes a su compra es un ensayo de
Bernoulli donde la probabilidad de éxito es  = 00128 (ver apartado anterior). La
variable aleatoria Y=‘Número de aparatos que se estropean antes de 20 días, de los
116 que observamos’ sigue, por tanto, una distribución (116 00128). El producto
 = 141 es demasiado pequeño para permitir la aproximación por la normal, pero
es válida la aproximación binomial-Poisson con  = 116 · 00128 = 1485. Redondear
a 15 este valor a fin de poder usar la tabla de Poisson no modificará apenas la
probabilidad que deseamos calcular, que es
( ≥ 5) = 1 − ( ≤ 4) ∼ = 1 −  (P(15) ≤ 4) = 1 − 0981 = 0019
Esta es una probabilidad pequeña (notoriamente menor que el nivel de signifi-
cación usualmente utilizado, 005). El suceso ‘más de 4 aparatos fallidos de los 116
observados’, que era en principio muy improbable, es precisamente el que ha ocurri-
do, de donde podemos concluir que la premisa inicial (la especificación dada por
el fabricante: T Ã (11553)) no se corresponde con la realidad. De cualquier
modo, la probabilidad hallada no es tan pequeña que deje bien patente la falsedad
de las especificaciones; de hecho, si fuésemos muy reacios a quitar la razón al fabri-
cante optaríamos por sostener la validez de la premisa, dado que la probabilidad
del suceso observado no es inferior a 001 (otro nivel de significación usual). En tal
caso, podríamos decirle al comercial que quizá las especificaciones sean correctas y
simplemente esta vez él haya tenido muy mala suerte.
El modo de salir de dudas pasa por utilizar una muestra de la variable T que
tenga un tamaño mucho mayor.
d) Cada uno de los 50 lotes tiene un peso  =  +  , donde  e  representan,
respectivamente, el peso del aparato y del obsequio que se juntan para formar el lote
-ésimo. Desconocemos la distribución de probabilidad de  , pero sabemos que
( ) = ( ) + ( ) = 640 + 130 = 770
 ( ) =  ( ) +  ( ) = 21 + 820 = 841
(esto último, gracias a la independencia entre ambos pesos). De la variable aleatoria
W=‘Peso total de los 50 lotes’ nos dice el Teorema Central del Límite que es
X50 µX qX ¶ ³ ´

 =  ≈ N ( )  ( ) = N 50 · 770 50 · 841 = N (38500 205) 
=1
de modo que solo falta calcular
µ ¶
 −  39000 − 38500 ∼
(  39000) =   =  (N (0 1)  244)
 205
= 1 − (244) = 00073
Problema 2 Suponemos que las millas por galón recorridas por un automóvil equipado
con neumáticos con huella del tipo A es una variable aleatoria con distribución (  ,  )
y para los equipados con neumáticos con huella del tipo B la distribución es (  ,  ).
a) En el primer experimento es claro que se trata de un diseño de muestras independientes
ya que intervienen 36 automóviles de los que 18 se equipan con neumáticos de cada
tipo. En este apartado debemos contrastar las hipótesis
0 :  −  = 1
1 :  −   1
Puesto que las varianzas son desconocidas, antes de llevar a cabo este contraste,
debemos comprobar si podemos o no suponerlas iguales. Esto lo hacemos calculando
2
un intervalo de confianza para el cociente de varianzas 2 , con confianza 95% por

ejemplo. El I.C. es:
1 2  2 2
≤ ≤ 17170025
17170025 2  2 2
En las tablas de la distribución F vemos que: 15170025 = 272 y 20170025 = 262,
de modo que 17170025 ' 267El I.C. es:
µ ¶
1 22 22
; 267 = (058; 417)
267 162 162
El intervalo contiene al 1 y por lo tanto podemos suponer que las varianzas son
iguales. Notar que se podría haber utilizado otro valor de la confianza o calcular el
p-valor para el contraste de hipótesis
 2
0 : =1
 2
 2
1 : 6= 1
 2
Por lo tanto a la hora de comparar las medias, consideraremos las varianzas des-
conocidas pero iguales. La región crítica del test de nivel 0.05 para contrastar 0 :
 −  = 1 contra 1 :  −   1 es:
⎡ ⎤
−  − 1
⎣  q  34005 ⎦
1 1
 18 + 18
donde r
172 + 172
 = = 1811
34
30005 + 40005 1697 + 1684
34005 ' = = 16905
2 2
Comparando el valor observado del estadístico de contraste con el correspondiente
percentil de la distribución t obtenemos:
244 − 226 − 1
q = 1325  16905
1 1
1811 18 + 18

Por lo tanto NO SE RECHAZA LA HIPÓTESIS NULA y por lo tanto NO SE


DEMUESTRA QUE  −   1
b) Se trata de calcular la potencia del test en la alternativa  −  = 18, que es uno
menos el error de tipo 2 en 18. Π(18) = 1 − (18). Tenemos entonces que
 −  − 1 18 − 1
=  ' = 022
2 2 · 1811
y ∗ = 2 − 1 = 35. Entrando con estos valores en la curva O.C. VI (g), vemos
que (18) ' 065, y por lo tanto Π(18) ' 035Si queremos que la potencia en esta
alternativa sea 0.9, entonces con el mismo valor de  = 022, en la curva O.C. VI (g)
encontramos que para que (18) ' 01 ∗  100 por lo que se necesitarían más de
100 automóviles para equipar la mitad de ellos con neumáticos del Tipo A y la otra
mitad con neumáticos del tipo B.
c) En el segundo experimento, es claro que se trata de muestras pareadas ya que en cada
uno de los 18 automóviles se prueban los dos tipos de neumáticos, lo que hace que
las millas recorridas por galón con los neumáticos tipo A y tipo B están relacionadas
ya que se han probado en el mismo automóvil. De este modo se elimina el efecto
que podría tener el automóvil sobre las millas recorridas por galón. El contraste es el
mismo que el del apartado a)
0 :  −  =  = 1
1 :  −  =   1
solo que ahora el diseño es en muestras pareadas. La región critica del test de nivel
0.05 es:
−1
√  17005
  18
14 − 1
√ = 195
087 18
0025   −  = (17  195)  005
Por lo tanto SE RECHAZA 0 y se DEMUESTRA QUE con los neumáticos del
tipo A se recorre, en media, más de una milla más por galón, que con los del tipo B.
d) Ahora debemos contrastar las hipótesis:
0 :  −  =  = 18
1 :  −  =   18
El valor observado del estadístico de contraste es
 − 18 14 − 18
√ = √ = −19506
  18 087 18
Por lo tanto el p-valor es
(17 ≥ −19506) = 1 − (17  −19506) = 1 − (17  19506)  0975
En consecuencia NO SE RECHAZA 0 A LOS NIVELES HABITUALES Y NO
SE DEMUESTRA QUE con los neumáticos del tipo A se recorra, en media, más de
1.8 millas por galón, que con los del tipo B.
e) Aparentemente los resultados obtenidos en los apartados a) y c) parecen contradicto-
rios, no se rechaza la hipótesis nula en a) y si se rechaza la misma hipótesis nula en el
apartado c). Lo que ocurre es que en el diseño del primer experimento no se ha tenido
en cuenta que, al probar los dos tipos de neumáticos en automóviles diferentes, puede
ocurrir que el efecto automóvil, enmascare el efecto de los tipos de neumáticos sobre
las millas recorridas por galón. Esto no ocurre en el segundo experimento ya que los
dos tipos de neumáticos se prueban sobre los mismos automóviles, eliminando así el
efecto automóvil. El segundo experimento es más fiable y por lo tanto la conclusión
es que con los neumáticos con huella del tipo A se recorre más de una milla por galón
que con los neumáticos con huella del tipo B pero no se recorre más de 18 millas por
galón.
Problema 3 Se analiza la relación entre el contenido de etileno de semillas de lechuga
(en  peso seco) y el tiempo de exposición (en ) a un absorbente de etileno.

a) La tabla ANOVA completa es la siguiente:


Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 12309766 1 12309766 34469 00000
Residual 3214134 9 357126 No hay valor
Total (Corr.) 155239 10
La tabla de coeficientes completa es la siguiente:
Parameter Estimate Standard T Statistic p-value
Error
Intercept 291298 340159 85636 00000
Slope −337551 0574944 −587102 00002
Para obtener la primera tabla hemos usado que los grados de libertad totales son
 − 1 = 10 con lo que los grados de libertad del residual son 9 ya que el modelo
de regresión simple tiene 1 grado de libertad. Entonces como  = 357126 y
 =  ( − 2) tenemos que  = 9 · 357126 = 3214134. Como además
 = 155329 y  =  +  tenemos que  =  = 12309766.
También tenemos  =  = 34469. Buscado en la tabla de la F tenemos
que el p-valor es menor que 001, ya que  = 34469  19001 . Por tanto, tenemos
que la regresión es significativa a los niveles habituales.
Para la tabla de coeficientes hemos usado que  =  b (
b ) donde 
b es el esti-
mador y (b ) es su error estándar. Entonces, teniendo en cuenta que los valores de
b aparecen en el gráfico tenemos 291298340159 = 85636 y −3375510574944 =

−587102. Para la acotación de los p-valores tenemos que, según las tablas, (9 
587102)  (9  4781) = 00005 luego (|9 |  85636)  (|9 |  |−587102)| =
2(9  587102)  0001.
b) Se pide un intervalo de predicción del 95% para la respuesta media cuando 0 = 90.
La predicción de la respuesta para ese valor de la  es
b0 = c0 + c 1 0 = 291298 − 337551 · 90 = −124979
La expresión para calcular el intervalo de predicción pedido es
s µ ¶
1 (0 − ̄)2
b0 ± 2−2  + .
 
Como se pide un intervalo de predicción con  = 005 tenemos 2−2 = 00259 =
2262 y s µ ¶
1 (90 − 501818)2
−124979 ± 2262 357126 +
11 108036364
(−124979 ± 65900)
(53402 −78398)

El intervalo obtenido no parece muy útil. Hay que notar que el propio valor predicho,
que está en el centro del intervalo, es negativo lo que no tiene sentido ya que no puede
haber contenidos de etileno negativos. Hay que notar además que se está haciendo
un intervalo en 0 = 90 (que ni siquiera está en el extremo del intervalo de valores de
 en los que se han hecho observaciones), con lo que al ser la pendiente de la recta
negativa todos los valores de  mayores que 90 también tendrán valores predichos de
etileno negativos. Esto es obviamente un factor que hace que el propio modelo no sea
conveniente.
c) El modelo nos diría que el incremento medio de la variable respuesta es 10 ·  1 si
incrementamos la variable regresora en 10 unidades. Por tanto, como queremos saber si
podemos afirmar que un incremento en 10 min de la exposición al absorbente disminuye
en más de 03 unidades el logaritmo del contenido en etileno en las semillas, debemos
realizar el siguiente contraste de hipótesis:
0 :  1 ≥ −0310
1  1  −0310
c1 −  ∗
 −00323287 − (−003)
1
= = = −31049
c1 )
( 000075
El p-valor es (9  −31049). En la tabla de la  encontramos
0019 = 2821 00059 = 3250
Por tanto, tenemos que  −  = (9  −31049) = (9  31049) ∈ (0005 001)
con lo que rechazamos 0 a los niveles habituales. Por tanto, queda probada estadís-
ticamente la afirmación del enunciado.
d) El valor a partir del cual declaramos una observación como potencialmente influyente
por ser un posible outlier en la  es   2(+1) 
4
= 11 = 036364. El valor que tenemos
para la observación considerada es  = 0678744 con lo que puede ser considerada
como potencialmente influyente. Sin embargo no disponemos del valor de    
para esa observación por lo que no podemos estar seguros de que dicha observación sea
efectivamente influyente. Disponer de los valores de dicho diagnóstico nos permitiría
poder tomar una decisión sobre esta cuestión.
e) El gráfico de residuales del primer modelo presenta una clara curvatura por lo que en
dicho modelo no se verifica la hipótesis de la linealidad. Además como hemos visto
en el apartado b) algunas predicciones arrojadas por dicho modelo no tienen sentido
en el problema que se considera. Por su parte el tercer modelo también presenta
ciertas tendencias en su gráfico de residuales con al menos un punto potencialmente
influyente. Podría parecer que el segundo modelo también tiene cierta tendencia en
sus residuales pero, incluso de existir, esa tendencia es mucho menos clara y además
si se revisa el gráfico se ve que la observación que es potencialmente influyente por ser
un outlier en  en el modelo 3 no está alejada en este caso en el eje  por lo que
en este caso seguramente no sería un punto de influencia aunque sí un posible outlier
puesto que hay pocas observaciones en el modelo y el residual estudentizado de esta
observación es cercano a 3.
En resumen, si bien ninguno de los modelos parece indudablemente correcto el mo-
delo 2 tiene mucho mejores características que los otros dos.
Estadística 1 E.I.I. Sede Paseo del Cauce
4 de julio de 2016

Problema 1 (3 puntos) En una planta metalúrgica se fabrican barras de acero para


ferralla, cuya dimensión crítica es la longitud  (en metros). Se estima que el 95% del
tiempo el proceso está bajo control y cumple  Ã (10000 0004). El 5% restante del
tiempo el proceso se comporta como  Ã (10000 0008) y se considera fuera de control
por su gran dispersión.
Cada hora se realiza un control de calidad consistente en elegir cuatro barras al azar a la
salida del proceso y promediar su longitud. Si el promedio se sale de los límites de control
10000 ± 0006, se activa una señal de alerta, que se interpreta como un indicio de que
el proceso podría estar fuera de control, y se realiza una parada de mantenimiento para
restituirlo, en su caso, a la situación de bajo control. (Notación: BC={Proceso Bajo
Control}, FC={Proceso Fuera de Control}, A={Señal de Alerta})
a) Obtener la probabilidad de falsa alarma, es decir, que se produzca una señal de alerta
cuando el proceso está bajo control. Obtener también la capacidad de detección, es de-
cir, la probabilidad de que se active la señal de alerta cuando el proceso está realmente
fuera de control.
Para los apartados b), c) y d) que siguen, supóngase que la probabilidad de falsa alarma
es 0.01 y la capacidad de detección 0.15.
b) Si se produce una señal de alerta, hallar la probabilidad de que el proceso se encuentre
fuera de control.
c) Si durante 10 días (240 horas) el proceso está bajo control, hallar la probabilidad de
que se produzcan más de ocho falsas alarmas en el periodo.
d) Si el proceso se encuentra en una situación de fuera de control, calcula el número medio
de horas que transcurrirán hasta tener una señal de alerta.
e) Las especificaciones del proceso indican que son válidas las barras cuya longitud esté
entre 10000 ± 0010 Si el proceso se encuentra fuera de control, hallar el número
mínimo de barras que hay que inspeccionar para tener una probabilidad de al menos
0975 de encontrar por lo menos 10 barras que no sean válidas.
Problema 2 (4 puntos) La diabetes tipo II tiene una alta prevalencia en la actualidad.
Su tasa ha crecido en paralelo a la de la obesidad, por lo que se piensa que la obesidad
es su causa primaria en personas con predisposición genética, debido al elevado consumo
de grasas y azúcares en la dieta. Con el fin de estudiar los mecanismos moleculares de
esta enfermedad, los investigadores utilizan como modelos de estudio ratones alimentados
durante 20 semanas con dietas low fat diet (48% grasa) y high fat diet (60% grasa), de
modo que al cabo de estas 20 semanas el peso de los segundos es en promedio más de un
30% mayor que el de los primeros. Un investigador recibe del animalario 16 ratones de
cada tipo escogidos al azar, a los que mide el peso () y la cantidad de insulina en plasma
(). Suponer normalidad para las distribuciones del peso e insulina en ambos tipos
de ratones.
Peso () Insulina ()
   
Low fat diet 203 080 068 035
High fat diet 279 099 163 048
Dif 76 125 095 053

a) Antes de hacer el análisis, el investigador debe asegurarse de que cada grupo de ratones
ha seguido la dieta correspondiente y que, por tanto, los ratones high fat diet pesan
en promedio más de un 30% más que los low fat diet, cantidad que fijamos por datos
históricos en 7 gramos. Si la varianza poblacional del peso de los ratones es conocida
e igual a 1 para ambos tipos, obtener una cota inferior de confianza de nivel 095 para
la diferencia de pesos medios. A la vista de la cota, ¿hay evidencia de que los ratones
high fat diet pesan más de 7 gramos más?
b) ¿Se puede afirmar a nivel 005 que es mayor la cantidad media de insulina en plasma
de los ratones high fat diet? Calcular el p-valor.
c) ¿Cuál es el error tipo II de la prueba anterior para una diferencia media en la insulina
en plasma de 0336?
d) Obtener el tamaño muestral necesario para que en esa prueba el incremento medio de
insulina en plasma de los ratones high fat diet sea detectado con probabilidad 090.
e) ¿Hay evidencia de que la cantidad media de insulina en plasma de los ratones high fat
diet es más de 055 mayor que la de los ratones low fat diet?
Estadística 1 E.I.I. Sede Paseo del Cauce
4 de julio de 2016

Problema 3 (3 puntos) Los datos en la tabla de la izquierda proporcionan medidas


de las velocidades alcanzadas (v) en m/min para embarcaciones de remo, dependiendo del
número de remeros (r). Se ajustó un modelo de regresión lineal simple con v como variable
respuesta y r como variable explicativa obteniéndose la tabla de coeficientes estimados
que se muestra a la derecha:

Datos:
--------------------
r v r v
1 279 4 316 Regresion con v y r:
1 276 4 312 -------------------------------------------------------
1 275 4 309 Least Squares Standard T
1 279 4 326 Parameter Estimate Error Statistic P-Value
2 291 8 341 Intercept 272,022 2,73159 99,5837 0,0000
2 289 8 338 Slope 9,21087 0,592565 15,5441 0,0000
2 287 8 343 --------------------------------------------------------
2 295 8 349
---------------------
a) ¿Sirve el número de remeros para explicar la velocidad de la embarcación? Dando por
correcta dicha regresión, ¿podemos afirmar que añadir dos remeros a la embarcación
aumenta su velocidad en más de 16 m/min trabajando a nivel  = 005?
Por cálculos realizados usando mecánica de fluidos, se afirma que la velocidad de la em-
barcación debe ser proporcional a una potencia 19 del número de remeros, es decir, es
 = 19 , donde  es una constante que depende de las características de cada embar-
cación. Por tanto, se realizan las transformaciones  = log  y  = log  (los logaritmos
utilizados son neperianos) y se ajusta el modelo de regresión lineal  =  0 +  1  + 
obteniendose:
Regresion con x e y:
---------------------------------------------------------------------------
Least Squares Standard T
Parameter Estimate Error Statistic P-Value
Intercept 5,61414 0,00733345 765,552 0,0000
Slope 0,103772 0,00565521 18,3499 0,0000

Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model ******** ** *********** ****** 0,0000
Residual 0,00430236 ** ***********
Total (Corr.) 0,10778 **
---------------------------------------------------------------------------
Con este nuevo modelo se consigue un mejor plot de residuales.
b) Completa la tabla anterior y da el 2 de esta regresión
c) Realiza un test de nivel  = 005 para ver si la hipótesis  = 19 es razonable.
d) Obtén, usando el segundo modelo ajustado, una estimación de la velocidad alcanzada
por una embarcación con 4 remeros.
Estadística 1 E.I.I. Sede Paseo del Cauce
Soluciones
4 de julio de 2016

Problema 1 Utilizaremos para los sucesos de interés la notación: BC={Proceso Bajo


Control}, FC={Proceso Fuera de Control}, A={Señal de Alerta}.
a) Denotemos por   , respectivamente    , al promedio de cuatro observaciones in-
dependientes obtenidas al azar cuando el proceso está bajo control, respectivamente
fuera control. Por los datos del enunciado y lo que conocemos sobre el comportamiento
de las combinaciones lineales (en este caso promedios) de variables aleatorias normales
e independientes, tenemos que
√ √
  Ã (     4) = (10000 0004 4) = (10000 0002) y
√ √
   Ã (       4) = (10000 0008 4) =  (10000 0004)
La probabilidad de falsa alarma pedida es la probabilidad condicionada
µ ¶
−0006  −  0006
 () =  (  6∈ [10000 ± 0006]) = 1 −  ≤ ≤
0002   2 0002
= 2(1 − Φ(3)) = 2 × 00013 = 00026
Del mismo modo, la capacidad de detección pedida es la probabilidad condicionada
µ ¶
−0006   −   0006
 ( ) =  (   6∈ [10000 ± 0006]) = 1 −  ≤ ≤
0004    2 0004
= 2(1 − Φ(15)) = 2 × 00668 = 01336
Al margen de los valores que acabamos de obtener, como se dice en el enunciado,
para los apartados b), c) y d) que siguen, supondremos que la probabilidad de falsa
alarma es  () = 001 y la capacidad de detección  ( ) = 015. Esto se
hace para facilitar proseguir con el ejercicio a quienes no resuelvan bien el apartado
a).
b) Se nos pide obtener  ( ), para lo cual utilizaremos la Regla de Bayes a par-
tir de las probabilidades condicionadas del apartado anterior y de las probabilidades
 () = 0 95 y  ( ) = 0 05 conocidas por el enunciado:
 ( ) ( )
 ( ) =
 () () ( ) ( )
005 × 015
= = 04412
095 × 001 + 005 × 015
de modo que, si se produce una señal de alerta, solo el 44% de las veces, aproximada-
mente, se tratará realmente de un una situación en la que el proceso esté fuera de
control, mientras que el restante 56% de las veces será una falsa alarma.
c) Si durante 10 días (240 horas) el proceso está bajo control, la ocurrencia de fal-
sas alarmas durante ese periodo se comportará como un Proceso de Bernoulli con
 =  () = 001. De este modo, la variable aleatoria  =“Número de
falsas alarmas ocurridas en 240 controles" seguirá una distribución binomial,  Ã
(  ) = (240 001). Nos piden calcular  (  8), para lo cual podemos uti-
lizar la aproximación binomial-Poisson, (240 001) ∼ (240 × 001) = (24), ya que
 = 240 es grande,  = 001  010 es pequeño y  = 24 ∈ (1 10) es moderado.
Usando las tablas de la distribución de Poisson, obtenemos
 (  8) = 1 −  ( ≤ 8) = 1 − 0999 = 0001
es decir, solo en uno de cada mil periodos de 10 días con el proceso bajo control se
producirán más de ocho señales de alerta (que serían falsas alarmas).
d) Volvemos a tener ahora un Proceso de Bernoulli, en este caso con   =  ( ) =
015. El número de horas que transcurrirán hasta tener una señal de alerta cuando
el proceso está fuera de control es una variable aleatoria equivalente a  =“Número
de controles de calidad hasta encontrar una señal de alerta". Esta variable aleatoria
sabemos que sigue la distribución geométrica,  Ã (  ) = (015), para la que
sabemos que
1 1
() = = = 6667
  015
es decir, pasarán en promedio entre seis y siete horas hasta que se detecte la situación
mediante una señal de alerta.
e) La inspección de las barras fabricadas con el proceso fuera de control, para verificar
el cumplimiento de las especificaciones 10000 ± 0010, es de nuevo un Proceso de
Bernoulli, con  =  ( 6∈ [0000 ± 0010]), siendo  =“Longitud de una barra",
 Ã (10000 0008).
µ ¶
−0010  −  0010
 =  ( 6∈ [10000 ± 0010]) = 1 −  ≤ ≤
0008  0008
= 2(1 − Φ(125)) = 2 × 01056 = 02112
Si denotamos  =“Número de barras defectuosas en una muestra de n barras ins-
peccionadas",  seguirá una distribución binomial,  Ã ( ) = ( 00124), siendo
 desconocido.
Nos piden hallar el mínimo valor de  que cumple  ( ≥ 10) ≥ 0975. Como
 = 0 2112 es un valor bastante central, intuimos que el valor de  será suficientemente
grande para que se cumpla   5. Por ello utilizaremos
p la aproximación binomial-

normal, ( 02112) ∼ ( ) = (02112 02112(1 − 02112)).
à !
 −  10 − 02112
 ( ≥ 10) =  √ ≥p
 02112(1 − 02112)
à !
∼ 10 − 05 − 02112
= 1−Φ p ≥ 0975
02112(1 − 02112)
que, aplicando Φ−1 , se convierte en la inecuación
10 − 05 − 02112
p ≤ −196
02112(1 − 02112)
Resolvemos la ecuación de segundo grado que se obtiene elevando al cuadrado en el
caso de la igualdad
(95 − 02112)2
= 1962 
02112(1 − 02112)
y obtenemos como solución  ≥ 79 barras. La otra solución,  = 26 no sería válida
porque correspondería a la probabilidad complementaria.
Problema 2 Se observan dos variables aleatorias, Peso y Cantidad de insulina en plasma,
en dos tipos de ratones, high fat diet y low fat diet, teniendo 16 ratones de cada tipo.
a) Sean 1 =Peso ratones high fat diet y 2 =Peso ratones low fat diet, variables aleato-
rias que siguen distribuciones normales 1 Ã (1  1), 2 Ã  (2  1). Tenemos dos
m.a.s. de estas dos v.a. de tamaños 1 = 2 que podemos considerar independientes,
puesto que son ratones de diferente tipo los de una y otra muestra.
Se pide obtener una cota inferiorqde confianza de nivel 0.95 para la diferencia 1 −2 ,
 21  22
esto es, 1 − 2 ≥  1 −  2 −  1
+ 2
, donde  = 005 = 1645 y  21 =  22 = 1.
Sustituyendo, tenemos
r
1 1
1 − 2 ≥ 279 − 203 − 1645 + = 7018
16 16
A la vista de la cota, con una confianza del 95% la diferencia de medias es mayor
o igual que 7018, luego es mayor que 7 y por tanto hay evidencia de que los ratones
high fat diet pesan más de 7 gramos más que los ratones low fat diet.
b) Sean 1 = Cantidad insulina de ratones high fat diet y 2 = Cantidad insulina de
ratones low fat diet. Estas variables siguen distribuciones normales: 1 → (1   1 ),
2 → (2   2 ). Se pregunta si se puede afirmar a nivel 005 que es mayor la cantidad
de insulina en plasma de los ratones high fat diet, es decir, y como estamos en la misma
situación del apartado anterior de dos muestras independientes, hay que realizar el
contraste de hipótesis:
0 : 1 = 2
1 : 1  2
Como las varianzas son desconocidas, debemos ver si podemos asumir que son iguales
o no. Para ello podemos construir un intervalo de confianza para el cociente  21  22 , o
equivalentemente, realizar el contraste de hipótesis:
0 :  1 =  2
1 :  1 6=  2
Si fijamos  = 005, la región crítica para este último contraste es  = {0 
−1 2
15150025 } ∪ {0  15150025 } = {0
 03496503} ∪ {0  286}. Como 0 = 12 =
2
0482
0352
= 188 ∈  , no podemos rechazar 0 , y podemos asumir la igualdad de varianzas.
En consecuencia el estadístico-test para el contraste de medias es
 1 −  2 − ∆0 163 − 068 − 0
0 = q = q = 6397633
 11 + 12 042 16 1 1
+ 16
q q
(1 −1)12 +(2 −1)22 2 +15·0352
donde  = 1 +2 −2
= 15·048 30 = 042.
La región crítica de este contraste es  = {0  1 +2 −2 } = {0  30005 } = {0 
1697}, por tanto como 0 ∈  se rechaza 0 y se puede afirmar con seguridad que
1  2 , es decir, es mayor la cantidad de insulina en plasma de los ratones high fat
diet. De hecho,  −  =  (0  6397633)  00005.
c) El error de tipo II en un valor de la alternativa es 1 menos la potencia en ese punto.
Teniendo en cuenta el contraste en b) y que  = 005, debemos utilizar las curvas
CO de la carta (g), con  = |1 −22 −∆0 | = 0336−0
2·042
= 040. Para la curva en que
∗ = 2 − 1 = 31 ' 30 observamos que el error de tipo II es  ' 030.
d) Utilizando las mismas curvas (g) y el mismo valor de , observamos que para que
dicha diferencia (0.336 ng/mL) pueda ser detectada con una potencia  = 090, 
tiene que ser 010 y esto ocurre aproximadamente para valores ∗ = 50, con lo que
 = (50 + 1)2 = 255 y 1 = 2 ≥ 26.
e) En este caso, el contraste de hipótesis a realizar es el siguiente:

0 : 1 − 2 = 055
0 : 1 − 2  055
El estadístico-test para el contraste es
 1 −  2 − ∆0 163 − 068 − 055
0 = q = q = 269374
 11 + 12 1
042 16 + 161

Calculemos el  − :  −  =  (1 +2 −2 ≥ 0 ) =  (30 ≥ 269374) ∈


(0005 001), por lo que se rechaza el contraste a los niveles habituales y podemos
afirmar que, efectivamente, hay evidencia de que la cantidad de insulina en plasma de
los ratones high fat diet es más de 055 mayor que la de los ratones low fat diet.

Problema 3 Se analiza la relación entre el número de remeros y las velocidades alcan-


zadas para embarcaciones de remo.
a) En vista de un -valor prácticamente igual 0 para el coeficiente de “slope" de la
regresión de v en función de r podemos afirmar que el número de remeros sirve para
explicar de manera lineal la velocidad de la embarcación.
El incremento esperado en v si incrementamos r en dos unidades, con dicho modelo
como válido, sera 2 ·  1 . Por tanto, nos piden realizar un test para ver si 2 ·  1  16
o, equivalentemente, ver si  1  162 = 8. Realizamos el test
½
0 :  1 ≤ 8
1 :  1  8
con el estadístico
c
 −8 921087 − 8
= 1 = = 20436
c1 )
s.e.( 0592565
Se tiene 20436  16−2;005 = 1761 (nótese que  = 16). Por tanto, se rechaza la
hipótesis nula a nivel  = 005 y queda probada la afirmación del enunciado a ese
nivel.
b) La tabla completa sería:
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 010348 1 010348 337068 00000
Residual 000430236 14 0000307311
Total (Corr.) 010778 15
Para obtener esta tabla hemos usado que  = 16,  = (Total) −  =
010778 − 000430 = 010348. También se ha usado que  = 1 = 010348,
 = (16 − 2) = 0000307 y  =  = 337068.
El 2 de esta regresión es 2 = (Total) = 010348010778 = 096. Luego
se explica un 96% de la variabilidad en la variable respuesta.
c) Si el modelo  = 19 fuera correcto tendríamos que log() = log() + 19 · log() al
tomar logarítmos. En ese caso, la regresión de  = log() frente a la variable explicativa
 = log() debería tener una pendiente igual a 19. Por tanto, para chequear la validez
de dicha hipótesis, debemos realizar el test
½
0 :  1 = 19 = 011111
1 :  1 6= 19 = 011111
en la nueva regresión realizada. Se usa el estadístico de contraste
¯ ¯ ¯ ¯
¯ ¯
¯ c1 − 01111 ¯ ¯¯ 010377 − 011111 ¯¯
=¯ ¯=¯ ¯ = 12981
¯ s.e.(c1) ¯ 0005655
A nivel  = 005, no podemos descartar la hipótesis realizada usando mecánica de
fluidos puesto que 12981  16−2;2 = 14;0025 = 1761.
d) Usando el segundo modelo ajustado, para 4 remeros (es decir,  = log(4) = 138629)
se tiene la siguiente predicción:
\ =c
b = log() 0 + c
 1 · log(4) = 561414 + 010377 · 138629 = 5757995
\ = exp(5757995) =
Podemos deshacer ahora la transformación logarítmica b = exp(log())
3167127 Así, estimamos una velocidad de 3167127 para una embarcación de
4 remeros.
En el enunciado se pedía solo la predicción, pero también se puede obtener un
intervalo de confianza para log() mediante la formula del intervalo de confianza para
la predicción de una nueva observación con 0 = log(4). La media  puede obtenerse
a partir de la p
media de los logarítmos de los  = 16 datos originales y  se obtiene
c
de s.e.( 1 ) =  .

También podría gustarte