Está en la página 1de 14

Estadística 1 Grados de Ingeniería Mecánica e

Ingeniería de Organización Industrial


Examen Intermedio. 25 de marzo de 2011
Problema. El alcalde de una pequeña localidad de la provincia de Valladolid, que ve
segura su victoria electoral, estudia la posibilidad de subirse el sueldo una vez ganadas
las elecciones. Como desea justificar su subida, obtiene los datos de los sueldos de 200
alcaldes de localidades de la Comunidad con número de habitantes similar al de la suya.
Los datos que obtiene se presentan en esta tabla ( son decenas de miles de euros).
Sueldo  25  3  35  4  45  5

N Alcaldes 2 11 18 35 60 94
Sueldo  55  6  65  7  75  8

N Alcaldes 133 166 180 193 197 200

a. El alcalde piensa que la distribución de la variable es normal. Hacer una representación


gráfica con la tabla anterior (o con una reorganización de la misma si es necesario) en
la que se ponga de manifiesto si esa hipótesis es sostenible con los datos o no.
b. Supongamos que la distribución de los sueldos de los alcaldes es  (5 12). ¿Qué
sueldo mínimo debería asignarse el alcalde para ganar más que el 80% de los alcaldes
de pueblos similares al suyo?
c. Tras las elecciones, nuestro alcalde se dedica a la obtención de subvenciones de la UE
para los vecinos de su pueblo. Se sabe que las subvenciones se conceden de forma
independiente y que la probabilidad de que una subvención cualquiera se conceda es
069. El alcalde considera que los vecinos estarán satisfechos con su labor si al menos
30 de ellos ven aceptadas sus solicitudes. ¿Cuál es el número mínimo de solicitudes
que deberían presentarse para tener una probabilidad superior a 095 de conseguir ese
objetivo?

Solución a) Con los datos que tenemos si queremos ver si los datos presentan un aspecto
próximo a la normalidad o no lo más apropiado es hacer un histograma para lo cual
debemos transformar la tabla acumulada que se nos da en el problema en una tabla de
frecuencias absolutas. El histograma nos queda como sigue
42
39
36
33
30
Número de observaciones

27
24
21
18
15
12
9
6
3
0
[0M,0.5M) [1M,1.5M) [2M,2.5M) [3M,3.5M) [4M,4.5M) [5M,5.5M) [6M,6.5M) [7M,7.5M)
[0.5M,1M) [1.5M,2M) [2.5M,3M) [3.5M,4M) [4.5M,5M) [5.5M,6M) [6.5M,7M) [7.5M,8M)
Sueldo de los alcaldes

La curva normal que aparece en el gráfico es la correspondiente a la distribución normal


que mejor ajusta a los datos. Notar que la primera clase comienza en 0 puesto que sólo
sabemos que los sueldos son menores que 25. Por tanto al ser la longitud de la clase 5
veces mayor que las otras la altura de la barra debe ser 25 = 04. Se puede comprobar
que lo datos no se apartan demasiado de una distribución normal con lo que esa hipótesis
de normalidad no parece descartable a la vista del histograma.
b) Si el alcalde quiere ganar más que el 80% de los alcaldes de pueblos similiares al suyo
y la distribución de estos sueldos es  (5 12)debemos calcular el percentil 08 de esa
distribución (el punto que deja a su izquierda una probabilidad 08 en esa distribución) es
decir que si denominamos  a la variable sueldo de los alcaldes de localidades de tamaño
similar debemos calcular
 tal que  ( ≤ ) ≥ 08
estandarizando tenemos µ ¶ µ ¶
 −5 −5 −5
 ≤ = ≥ 08
12 12 12
si buscamos en las tablas de la distribución normal obtenemos
−5
= 085 ⇒  = 602
12
c) Si la probabilidad de que una subvención se conceda es 069 y suponemos inde-
pendencia entre las concesiones como parece lógico entonces la variable  “Número de
subvenciones concedidas de las  presentadas” seguirá una distribución  ( 069) y debe-
mos calcular  que verifique la siguiente ecuación
 ( ≥ 30)  095
En esta situación vamos a intentar utilizar la aproximación binomial-normal y despues
comprobaremos que efectivamente se cumplían las condiciones para su uso (  5).
Tenemos entonces utilizando la correción por continuidad
µ ¶
 − 069 30 − 05 − 069
 √ ≥ √  095
 · 069 · 031  · 069 · 031
µ ¶
30 − 05 − 069
1− √  095
 · 069 · 031
µ ¶
30 − 05 − 069
 √  005
 · 069 · 031
30 − 05 − 069
√ = −165
 · 069 · 031
para resolver esta ecuación la elevamos al cuadrado obteniendo una ecuación de segundo
grado
(30 − 05 − 069)2 = 1652 ( · 069 · 031)
si resolvemos esta ecuación obtenemos dos soluciones  = 36108 y  = 50622. Si
sustituimos en la ecuación original (antes de elevarla al cuadrado) comprobamos que
la única solución válida es  = 50622 con lo que se necesitan al menos 51 solicitudes
para cumplir la condición. Además la aproximación binomial-normal es valida porque
 = 51 · 069 · 031 = 10909  5.
Estadística 1 Grados de Ingeniería Mecánica e
Ingeniería de Organización Industrial
30 de mayo de 2011

Problema 1 (3 puntos) En la fabricación de cierto detergente se utiliza la sustancia


contaminante S. Las unidades de producción que superan cierta cantidad de S se consi-
deran no aptas y se estima que se producen en una proporción de 0.01.

a) Hallar la probabilidad de que en un lote de 400 unidades haya más de 5 no aptas.


b) Hallar el tamaño que tendría que tener como mínimo un lote para que la probabilidad
de que contenga más de 10 no aptas sea superior a 0.99.

Para disminuir la proporción de unidades no aptas se somete la producción a un control


con las siguientes características:
- Una unidad apta supera el control con probabilidad 0.99.
- Una unidad no apta supera el control con una probabilidad 0.05.
- Las unidades que superan el control salen al mercado y el resto se someten a reciclaje.

c) Hallar la probabilidad de que una unidad que sale al mercado sea no apta.
d) Hallar la probabilidad de que una unidad que se somete a reciclaje sea apta.

Problema 2 (4 puntos) En una fábrica de ladrillos se sospecha que aumentar la tem-


peratura de horneado de 100 C a 125 C aumenta la densidad de los ladrillos. Para estu-
diarlo, se experimentó con ambas temperaturas, eligiendo una muestra aleatoria de ocho
ladrillos horneados a 100 C y después otra muestra aleatoria de ocho ladrillos horneados
a 125 C. Las densidades de los ladrillos de la muestra se dan a continuación.
Observaciones  
100  2187 2166 2172 2164 2175 2177 2181 2174 21745 0075
125  2199 2178 2186 2173 2185 2181 2182 2193 21846 0083
 012 012 014 009 01 004 001 019 0101 0056
Se supone normalidad para la densidad a ambas temperaturas.

a) ¿Se puede afirmar a nivel 0.05 que es mayor la densidad media de los ladrillos horneados
a 125 C?
b) ¿Qué capacidad tiene la prueba realizada en a) para detectar una diferencia de 0.1
unidades en la densidad media?
c) ¿Cuántas observaciones se necesitan para que dicha diferencia pueda ser detectada por
la prueba realizada en a) con una potencia de 0.95?
d) El mayor coste del horneado a 125 C hace que sólo sea rentable utilizar esta tempe-
ratura si se prueba que existe una diferencia en la densidad media de 0.05 unidades.
¿Qué decisión tomarías con los datos del problema? Obtener el p-valor.
Problema 3 (3 puntos) En un estudio de ingeniería ambiental acerca de cierta reac-
ción química, interesa conocer la concentración de ciertas soluciones en función del tiempo.
Se fijaron 6 valores diferentes para el tiempo y se observó la concentración de 18 solu-
ciones, 3 para cada uno de los valores de tiempo fijados. Con esos datos se ajustó un
modelo de regresión lineal simple con la variable “Concen” como respuesta y “Tiempo”
como variable regresora que arrojó los siguientes resultados:
Coefficients
Least Squares Standard
Parameter Estimate Error
Intercept -1.9318 0.428579
Slope 0.245971 0.0372092

Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model ****** ** 12.7054 43.70 *****
Residual ****** ** *****
Total (Corr.) ****** **

R-squared = 73.1987 percent. x = 11 Sxx= 59.749

2
Studentized residual

-1

-2

-3
-0,5 0 0,5 1 1,5 2 2,5
predicted Concen

a) Completar la tabla ANOVA y efectuar un contraste de significación de la regresión.


b) Con este modelo, ¿puede afirmarse que un incremento de 2 unidades en el tiempo
supone un incremento de más de 0.45 unidades en la concentración?
c) Utilizando el modelo que se ofrece, dar un intervalo de predicción del 90% para un
tiempo igual a 10.
d) A la vista de los resultados, ¿hay problemas con alguna de las hipótesis del modelo?
En caso de detectarse problemas con las hipótesis especificar con cuáles y proponer
posibles soluciones. ¿Existen problemas con alguna de las observaciones presentes en
el modelo? Justificar.
e) Teniendo en cuenta las respuestas al apartado d), ¿qué validez crees que tienen las
conclusiones extraídas en los apartados b) y c)?
Estadística 1 Grados de Ingeniería Mecánica e
Ingeniería de Organización Industrial.
Soluciones
30 de mayo de 2011

Problema 1 Sea la variable aleatoria  =“número de unidades de producción que


superan la cantidad S”, es decir, número de unidades de producción no aptas. Cada
unidad puede ser no apta con una probabilidad  = 001 o apta con una probabilidad
1 −  = 1 − 001 = 099, de donde se tiene que  ∼ ( 001).
a) Nos están pidiendo calcular  (  5) = 1 −  ( ≤ 5), pero  = 400 es un tamaño
muy grande para calcularlo directamente.
Como   001 y 1 ≤  = 4 ≤ 10, podemos utilizar la aproximación binomial-

Poisson, de donde  ∼  () ≡  (4).
Ahora buscamos la probabilidad en las tablas de la Poisson, y tenemos:
 (  5) = 1 −  ( ≤ 5) ' 1 − 0785 = 0215
b) Si  ∼ ( 001), se pide calcular el mínimo  tal que  (  10)  099, o, lo que es
lo mismo  (  10) = 1 −  ( ≤ 10)  099, de donde  ( ≤ 10)  001.
Como   001, si suponemos 1 ≤  ≤ 10 podemos utilizar la aproximación

binomial-Poisson  ∼  (). Buscamos en las tablas de la Poisson cuál es el mínimo
valor de  =  tal que una variable aleatoria  ∼  () cumple  ( ≤ 10)  001,
y encontramos que   20 Pero entonces no se cumple 1 ≤  ≤ 10, por lo que no
podemos utilizar esta aproximación.
Si suponemos  =  √ · 001 · 099  5 podemos utilizar la aproximación binomial-

Normal  ∼ (001 00099), aplicando también corrección por continuidad:
µ ¶
 − 001 105 − 001
 ( ≤ 10) =  ( ≤ 105) =  √ ≤ √
00099 00099
µ ¶
105 − 001
'  √  001
00099
Si miramos en las tablas de la normal, tenemos que ha de cumplirse
105 − 001
√  −233
00099
Vamos a resolver la ecuación
105 − 001
√ = −233 (1)
00099
Para ello, elevamos al cuadrado y simplificamos, obteniendo la ecuación
000012 − 02637 + 11025 = 0
que tiene como soluciones 1 = 211657 y 2 = 52089.
De estas dos soluciones, 1 es la única que verifica la ecuación (1), por lo que
 ≥ 2117.
Para terminar, comprobamos que   5. Efectivamente,
 = 2117 · 001 · 099 = 209583  5
por lo que la aproximación binomial-Normal era aplicable.
Ahora tenemos que, para una unidad cualquiera:
Sea ” ” = ”   ”, por lo que
 () = 099  () = 001

Sea ”” = ”    ” (sale al mercado), por lo que:
 ( ) = 099  ( ) = 001
 ( ) = 005  ( ) = 095
c) Se pide calcular  (  ) Aplicando la regla de Bayes:
 () ·  (  )
 (  ) =
 () ·  (  ) +  () ·  (  )
001 · 005
= = 000050989
001 · 005 + 099 · 099
d) Para terminar, se pide calcular  (  ) Aplicando Bayes de nuevo:
 () ·  (  )
 (  ) =
 () ·  (  ) +  () ·  (  )
099 · 001
= = 05103
099 · 001 + 001 · 095

Problema 2 Se observan dos variables aleatorias, 1 =“densidad de los ladrillos hornea-


dos a 100 C” y 2 =“densidad de los ladrillos horneados a 125 C”. Siguiendo el enunci-
ado suponemos entonces que 1 Ã (1   1 ) y 2 Ã (2   2 ). Tenemos dos m.a.s. de
estas dos v.a. de tamaños 1 = 2 = 8, que podemos considerar independientes, puesto
que son ladrillos diferentes los de una y otra muestra. Entre los datos que nos proporcio-
nan nos dan las dos medias muestrales, ̄1 = 21745 y ̄2 = 21846, y las dos desviaciones
típicas muestrales, 1 = 0075 y 2 = 0083.

a) Se quiere ver si hay evidencias a partir de los datos de que la densidad media de los
ladrillos horneados a 125 C es superior a la densidad media de los ladrillos horneados
a 100 C, i.e., si 2  1 . Por tanto, hay que realizar el contraste de hipótesis
0 : 1 − 2 ≥ 0
1 : 1 − 2  0
Como las varianzas son desconocidas, debemos ver si podemos asumir que son iguales
o no. Para ello podemos construir un intervalo de confianza para el cociente 1  2 , o
equivalentemente, realizar el contraste de hipótesis,
0 :  1 =  2 
1 :  1 6=  2 
Si fijamos  = 005, la región crítica para este último contraste es  = {0 
−1 2 2
770025∪ {0  770025 } = {0  02004} ∪ {0  499}. Como 0 = 12 = 0075
} 00832 =
2
08165 ∈  no podemos rechazar 0 , y podemos asumir la igualdad de varianzas. En
consecuencia el estadístico-test para el contraste de medias es
̄1 − ̄2 − 0 21745 − 21846 − 0
0 = q = q = −2554
 11 + 12 0079 18 + 18
q q
(1 −1)21 +(2 −1)22 2 +7·00832
donde  = 1 +2 −2
= 7·0075 14 = 0079.
La región crítica de este contraste es  = {0  −1 +2 −2 } = {0  −14005 } =
{0  −1761}, por tanto, como 0 ∈ , rechazamos 0 y afirmamos con seguridad
que 2  1 . (De hecho, 001   −  =  (14  −2554)  0025).
b) La capacidad para detectar un valor de la alternativa es la potencia en ese punto.
Teniendo en cuenta el contraste en a) y que  = 005, debemos utilizar las curvas
CO de la carta (g), donde  = |1 −22 −∆0 | = |01−0|
2·0079
= 063. Para la curva en que
∗ = 2−1 = 15, observamos que  ' 025, y por tanto la potencia es  = 1− ' 075.
c) Utilizando las mismas curvas (g) y el mismo valor de , observamos que para que
 = 095,  tiene que ser 005 y esto ocurre aprox. para valores de ∗ algo superiores
a 30, con lo que aproximadamente 1 = 2 =  ≥ 16.
d) Para resolver este apartado, si somos estrictos con el enunciado, deberíamos resolver
el contraste de hipótesis
0 : 2 − 1 = 005,
1 : 2 − 1 6= 005.
Sin embargo, otra opción razonable sería que la alternativa fuese ,
0 : 2 − 1 = 005,
1 : 2 − 1  005
Utilizando que podemos asumir las varianzas iguales el estadístico de contraste sería
̄2 − ̄1 − 0 21846 − 21745 − 005
0 = q = q = 129
1 1
 1 + 2 0079 18 + 18
Si elegimos el contraste utilateral entonces el p-valor será ligeramente superior a
01 (025 =  (14  0692)   (14  129)   (14  134) = 01). Si en cambio
realizamos el contraste bilateral, el p-valor será el doble, 2 ·  (14  129)  020. En
cualquier caso, no rechazamos la hipótesis nula, y por tanto la decisión será seguir
horneando a 100 C.

Problema 3 a) Para completar la tabla ANOVA de este estudio tendremos en cuenta



que  −  =  , que los grados de libertad totales son  − 1 donde  es el
número de observaciones en el estudio, que los grados de libertad del modelo son 
donde  es el número de variables en el modelo y que  =  

y  = −−1 .
Así tenemos
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 127054 1 127054 4370  001
Residual 46518 16 029074
Total 173572 17
donde el  − =  (116  4370) ha sido acotado con las tablas de la distribución
 . Teniendo en cuenta este − el modelo es significativo rechazándose la hipótesis
nula  1 = 0.
b) Dado que estamos considerando un modelo lineal, un incremento de más de 045
unidades en la concentración por cada 2 unidades de incremento en el tiempo es
equivalente a un incremento de 0225 unidades por cada unidad de incremento en
el tiempo. Así para decidir si podemos asegurar esto o no efectuamos el siguiente
contraste de hipótesis:
0 :  1 = 0225
1 :  1  0225
El estadístico de contraste es
b − ∗
 0245971 − 0225
0 = 1 ³ ´1 = = 0565
 b1 00372092

y el  −  =  (16  0565) está entre 025 y 04 según las tablas de la distribución
 con lo que no puede rechazarse la hipótesis nula y por tanto no puede asegurarse la
hipótesis alternativa.
c) El intervalo de predicción en un punto 0 es
v à !
u
u 1 (0 − ) 2
0 ∈ b0 ± −−12 t 1 + +
 

La predicción b0 en 0 es
b0 = b0 + 
b1 0 = −19318 + 0245971 · 10 = 052791
Y sustituyendo el intervalo queda
v à !
u
u 1 (10 − 11)2
0 ∈ 052791 ± 1746t029074 · 1 + +
18 59749
0 ∈ 052791 ± 1746 · 055835

−044697 ≤ 0 ≤ 15028
d) A la vista del gráfico de residuales ofrecido es bastante claro que existen problemas
con las dos hipótesis fundamentales del modelo, la de linealidad y la de homogeneidad
de la varianza, puesto que hay una clara curvatura en los residuales y además son más
dispersos cuanto mayor es el valor estimado. Una posible solución sería efectuar una
transformación de la variable respuesta.
No parece haber problemas con las observaciones del modelo, ya que ninguno de los
residuales se sale de la banda [−3 3] y solamente uno sale de la banda [−2 2] lo que no
es extraño dado que en torno a un 5% de observaciones (18 · 005 = 09) puede salirse
de dicha banda.
e) Obviamente, si no se cumplen las hipótesis fundamentales del modelo ninguna de las
inferencias que se hagan tendrán validez ya que estas inferencias están basadas en
dichas hipótesis.
Estadística 1 Grados de Ingeniería Mecánica e
Ingeniería de Organización Industrial
7 de julio de 2011

Problema 1 (3 puntos) Un cuerpo emite partículas radiactivas según un proceso de


Poisson de tasa 003 partículas/segundo.
a) Obtener la probabilidad de que en 5 minutos se hayan emitido más de 7 partículas.
b) Obtener la probabilidad de que la emisión de la partícula número 100 tarde más de
una hora en producirse.
El cuerpo emite, de forma independiente, partículas de dos tipos 1 y 2, con probabilidades
0075 y 0925, respectivamente.
c) Obtener la probabilidad de que entre las 20 primeras partículas que emita el cuerpo
haya más de 4 del tipo 1.
d) La probabilidad de que un detector detecte la colisión de una partícula depende del
tipo de partícula, siendo 085 para las de tipo 1 y 075 para las de tipo 2. Si se ha
detectado la colisión de una partícula, obtener la probabilidad de que sea del tipo 2.

Problema 2 (4 puntos) Se desea comparar dos productos diferentes destinados a en-


durecer madera para la fabricación de muebles. Para ello, se tomaron al azar 10 muestras
de diferentes tablas y se trocearon en dos mitades aplicando a cada mitad uno de los pro-
ductos. Posteriormente se midió la dureza de las tablas utilizando cierta escala apropiada
para ello, obteniéndose:
Tabla 1 Tabla 2 Tabla 3 Tabla 4 Tabla 5 Tabla 6 Tabla 7 Tabla 8 Tabla 9 Tabla 10  
Prod A 623 651 648 689 703 590 614 663 676 681 6538 0359
Prod B 621 653 653 690 699 602 618 673 679 689 6577 0341
Dif 002 −002 −005 −001 004 −012 −004 −010 −003 −008 −0039 0051
a) Plantear las hipótesis apropiadas y expresar la regla de decisión estadística más ade-
cuada para contrastarlas a nivel 001.
b) Si realmente no existiesen diferencias entre los efectos de ambos productos, ¿qué proba-
bilidad hay de que la regla planteada en a) nos lleve a una decisión equivocada?
c) Si realmente existiese una diferencia entre la dureza media de las maderas tratadas
con ambos productos superior a 01 unidades, ¿qué probabilidad hay de que la regla
planteada en a) nos lleve a una decisión equivocada?
d) Si sólo se considera importante una diferencia entre la dureza media de las maderas
tratadas con ambos productos cuando sea de 01 unidades o superior y queremos
que, en caso de existir tal diferencia, sea detectada con una probabilidad de al menos
095, ¿hemos diseñado correctamente el experimento? ¿Cuántas observaciones serían
suficientes?
e) Con los datos que se dan en la tabla, ¿a qué decisión nos lleva la regla diseñada en a)?
¿Qué garantías ofrece dicha decisión a la luz de lo indicado en los apartados anteriores?
NOTA: Siempre que sea necesario considérese válida la hipótesis de normalidad.
Problema 3 (3 puntos) Se sospecha que en una empresa las remuneraciones son fun-
ción lineal de los años de formación que posee cada empleado. Para ver si esto es cierto
se toma una muestra de empleados y se obtienen los datos que se muestran más abajo.
Se decide ajustar el modelo  =  0 +  1  +  donde  son las remuneraciones anuales
en miles de euros y  son los años de formación.
Años de Formación Número de Individuos Ingresos Anuales (en miles de )
8 6 14 16 18 20 22 24
12 6 20 24 28 32 36 40
14 4 22 28 38 50
16 6 24 30 38 42 50 56
18 6 26 34 44 52 56 64
Parameter Estimate St. Error T-Statistic
Intercept  735011 −0317455
Slope  0523864 509038

Residual Plot Normal Probability Plot


2,7 99,9
Studentized residual

99
1,7
95

percentage
0,7 80
50
-0,3 20
5
-1,3
1
-2,3 0,1
8 10 12 14 16 18 -2,3 -1,3 -0,3 0,7 1,7 2,7
Formacion SRESIDUALS

a) Sabiendo que 2 = 0499 y  = 2532, construir la tabla ANOVA y hacer un test
de significación de la regresión en el modelo. Especificar claramente las hipótesis del
test y las conclusiones obtenidas del mismo.
b) Con este modelo, ¿puede afirmarse que 4 años más de formación suponen un incre-
mento medio de menos de 11000 anuales?
c) Utilizando el modelo que se ofrece y sabiendo que  = 3548633, dar un intervalo de
confianza del 95% para los ingresos medios de los empleados con 15 años de formación.
d) A la vista de los resultados, ¿hay problemas con alguna de las hipótesis del modelo?
En caso de detectarse problemas con las hipótesis, especificar con cuáles y proponer
posibles soluciones. ¿Existen problemas con alguna de las observaciones presentes en
el modelo? Justificar.
e) Teniendo en cuenta las respuestas al apartado d), ¿qué validez crees que tienen las
conclusiones extraídas en los apartados b) y c)?
Estadística 1 Grados de Ingeniería Mecánica e
Ingeniería de Organización Industrial.
Soluciones
7 de julio de 2011

Problema 1 a) Definimos las siguientes variables aleatorias:


 = "n de emisiones en un segundo" Ã (003), según el enunciado del problema,
e  = "n de emisiones en un intervalo de 5 minutos" Ã (5 · 60 · 003) ≡ (9)
Se pide calcular  (  7) = 1 −  ( ≤ 7) = 1 − 0324 = 0676, según las tablas de
la distribución de Poisson.
b) Definimos la variable aleatoria:
 = "n de emisiones en una hora" Ã (60 · 60 · 003) ≡ (108)
La probabilidad de que la emisión número 100 tarde más de una hora en producirse
es la probabilidad de que en 3600 segundos se hayan emitido 99 partículas o menos. Es
decir, se pide obtener  ( ≤ 99), que no encontramos en las tablas. Para obtener esta
probabilidad, vamos a hacer la aproximación Poisson-Normal, dado que  = 108  5,
para lo que utilizaremos  = 108,   = 108:
µ ¶
 −  99 − 108
 ( ≤ 99) =  √ ≤ √
  108
−
Como √  
sigue aproximadamente una distribución (0 1), entonces podemos
aproximar la probabilidad que nos piden (utilizando la corrección por continuidad) de
la siguiente manera:
µ ¶
∼ 99 + 05 − 108 ∼
 ( ≤ 99) = Φ √ = Φ(−082)
108
= 1 − Φ(082) = 1 − 07939 = 02061
c) Para cada partícula, la probabilidad de que sea de tipo 1 es  (1) = 0075, y de tipo 2
es  (2) = 0925.
Las partículas emitidas son independientes unas de otras. Por lo tanto, si definimos
la variable  ="número de partículas de tipo 1 entre las 20 primeras", sabemos que
 Ã (20 0075).
Se pide obtener la probabilidad  (  4), que podemos obtener de la manera
siguiente. Como  = 0075  1 y 1 ≤  ·  = 15 ≤ 10, podemos aproximar a Poisson,

es decir,  Ã (15), de donde, buscando en las tablas de la distribución de Poisson,
tenemos que:
 (  4) = 1 −  ( ≤ 4)
' 1 − 0981 = 0019
d) Probabilidades que conocemos:
 (1) = 0075  (2) = 0925
 (  1) = 085  (  2) = 075
Se trata de calcular  (2  ). Aplicando la regla de Bayes, tenemos:
 (2 ∩ )
 (2  ) =
 ()
 (2) ·  (  2)
=
 (1) ·  (  1) +  (2) ·  (  2)
0925 · 075
= = 09158
0075 · 085 + 0925 · 075

Problema 2 El objetivo del estudio es comparar dos productos, A y B, diseñados con


el propósito de endurecer la madera empleada en la fabricación de muebles. Este tipo de
estudios de comparación de dos poblaciones se prestan a dos posibles diseños muestrales:
muestras independientes o muestras apareadas. En el caso que nos ocupa, el diseño
realizado es claramente de muestras apareadas ya que los dos productos se aplican uno
a cada una de las dos mitades resultantes de cortar cada tabla de la muestra aleatoria
elegida. De este modo, las diferencias en el índice de dureza que se observen entre las
piezas de madera de cada par, después del tratamiento, se deberán fundamentalmente
al diferente producto utilizado en cada una, ya que los demás factores que pudieran
influir en la dureza final de la madera están controlados en este diseño (tipo de madera,
dureza inicial de la madera, humedad, rugosidad, grado de secado, etc.). En lo que sigue,
siempre que se necessite se supondrá el cumplimiento de la hipótesis de normalidad para
las variables en estudio.
Utilizaremos la siguiente notación:
 =“Dureza de las tablas tratadas con el Producto A", con parámetros (    ).
 =“Dureza de las tablas tratadas con el Producto B", con parámetros (    ).
 =  −  =“Diferencia entre las durezas de cada par", con parámetros ( =  −
    ).

a) El contraste de hipótesis que se nos pide plantear es claramente bilateral, ya que se


trata de una simple comparación entre los dos productos y no de la constatación de
unas sospechas previamente observadas a favor de alguno concreto de los dos produc-
tos. ½
0 :  = 0
1 :  6= 0
Este contraste de hipótesis, para  = 001, se resuelve mediante la región crítica
bilateral correspondiente al test  por pares:
 = [|0 |  −1 ] = [|0 |  90005 ] = [|0 |  3250]
donde
̄ − 0
0 = √ Ã −1 
  
Nótese que sería un grave error supeditar el planteamiento de las hipótesis a con-
trastar a la observación del tipo de diferencias muestrales que aparezcan, en este caso
favorables al producto B. Las hipótesis a contrastar han de deducirse del propósito de
la investigación a realizar y tienen que ser previas a la realización del muestreo.
b) Nos están pidiendo la probabilidad de que con la regla anterior rechacemos la hipótesis
nula cuando sea cierta:
 =  [   ] =  [ 0 0 ] = 001
c) Nos piden ahora la probabilidad de cometer un Error de tipo II con la regla diseñada
en a) en el caso de que exista una diferencia entre las medias de | | = 01. Esto
se resuelve con las Curvas OC, en este caso con la Carta VI f), correspondiente a la
prueba  bilateral con  = 001. Teniendo en cuenta la curva correspondiente a  = 10
y el parámetro de entrada
| | | | 01
=  ∼ =  = = 196
  0051
obtenemos aproximadamente (01) ∼ = 002 o, lo que es lo mismo, la prueba que se
plantea en a) tendría una capacidad (potencia) para detectar una diferencia de medias
de esa magnitud de aproximadamente (01) ∼ = 098.
d) Si estamos interesados en que la prueba que se va a realizar según lo planteado en
a) tenga una capacidad de 095 para detectar una diferencia como la mencionada, es
decir (01) ∼
= 095, el diseño del tamaño muestral está bien planteado en el sentido
de que, como se ha visto en c), tenemos observaciones suficientes para alcanzar esa
potencia. De hecho, recurriendo de nuevo a las Curvas OC, Carta VI f), vemos que
habrían sido suficientes  = 9 observaciones.
e) Con los datos experimentales ya tomados, la aplicación de la regla de decisión (o test)
elaborada en a) arroja el siguiente resultado:
̄ − 0 −0039
0 = √ = √ = −2418
   0051 3
Como |0 | = 2418  3250, entonces no podemos rechazar 0 , es decir no queda
probada la existencia de diferencias significativas para el nivel de significación  = 001.
Teniendo en cuenta lo obtenido en b), esta decisión ofrece unas garantías altas ya
que, en el caso de que existiera una diferencia importante que nos interesara que
fuera detectada (  01), el riesgo de cometer error de tipo II, es decir de que no
rechacemos 0 siendo falsa, es de tan solo 0.02.

Problema 3 a) Para completar la tabla ANOVA de este estudio tendremos en cuenta


que 2 = 

con lo que 1 − 2 = 

, que los grados de libertad totales son  − 1
donde  es el número de observaciones en el estudio, que los grados de libertad del
modelo son  donde  es el número de variables en el modelo y que  =  
y

 = −−1 . Así tenemos
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 252343 1 252343 2591  001
Residual 253200 26 973846
Total 505543 27
donde el  − =  (126  2591) ha sido acotado con las tablas de la distribución
 . Teniendo en cuenta este − el modelo es significativo rechazándose la hipótesis
nula  1 = 0.
b) Dado que estamos considerando un modelo lineal, un incremento de 11000 en los
ingresos por cada 4 años de formación es equivalente a un incremento de 275 unidades
en los ingresos (recordar que están en miles de euros) por cada años de formación. Así
para decidir si podemos asegurar o no que 4 años suponen un incremento de menos de
275 unidades en los ingresos efectuamos el siguiente contraste de hipótesis:
0 :  1 = 275
1 :  1  275
El estadístico de contraste es
b − ∗ 26667 − 275
0 = 1 ³ ´1 = = −015901
  b1 0523864
³ ´ ³ ´
donde b1 =  b1 · −  b1 . El − de este contraste será  (26  −015901) =
 (26  015901) que es superior a 04 según las tablas de la distribución  con lo que
no puede rechazarse la hipótesis nula y por tanto no puede asegurarse la hipótesis
alternativa.
c) El intervalo de confianza para la respuesta media en un punto 0 es
v à !
u
u 1 ( − )2
 (0 ) ∈ b0 ± −−12 t
0
+
 

La predicción b0 en 0 es
b0 + 
b0 =  b1 0 = −23333 + 26667 · 15 = 37667

Debemos calcluar además la media 


8 · 6 + 12 · 6 + 14 · 4 + 16 · 6 + ·18 · 6
= = 135714
28
Y sustituyendo el intervalo queda
v à !
u
u 1 (15 − 135714)2
 (0 ) ∈ 37667 ± 2056t973846 · +
28 3548633
 (0 ) ∈ 37667 ± 2056 · 20095

33535 ≤  (0 ) ≤ 41799


d) A la vista del gráfico de residuales ofrecido es bastante claro que existen problemas
con la hipótesis de homogeneidad de la varianza, puesto que los residuales son más
dispersos cuanto mayor es el valor estimado. Una posible solución sería efectuar una
transformación de la variable respuesta. No parece haber problemas con la linealidad
del modelo ni con la normalidad de las observaciones.
Tampoco parece haber problemas con las observaciones del modelo, ya que ninguno
de los residuales se sale de la banda [−3 3] y posiblemente uno o dos salen de la banda
[−2 2] lo que no es extraño dado que en torno a un 5% de observaciones (28·005 = 14)
puede salirse de dicha banda.
e) Obviamente, si no se cumple alguna de las hipótesis fundamentales del modelo ninguna
de las inferencias que se hagan tendrán validez ya que estas inferencias están basadas
en dichas hipótesis.

También podría gustarte