Está en la página 1de 19

Estadística 1 Grados de Mecánica, Química y

Organización Industrial
Examen Intermedio. 15 de abril de 2013
Problema. La Ley de Benford es una ley de probabilidad discreta que sirve para modelar
la distribución del primer dígito de fuentes de datos reales procedentes tanto del ámbito
socioeconómico como de la ciencia y la tecnología. Esta ley se define como:
 ( = ) = log10 ( + 1) − log10 ()  para  = 1 2  9.
No todas las fuentes de datos se ajustan a la ley de Benford, si bien el ajuste tiende a
ser mejor cuantos más órdenes de magnitud abarcan los datos. El ajuste a esta ley se ha
utilizado en ocasiones judicialmente para tomar decisiones sobre la veracidad o falsedad de
datos fiscales o de contabilidad, entendiendo que si unos datos de este tipo no se ajustan
a la Ley de Benford muy probablemente estarán manipulados. Supongamos inicialmente
que disponemos de una fuente de datos que sigue la Ley de Benford y que los números
anotados en ella son independientes unos de otros.
a. Sabiendo que un determinado número comienza por dígito impar, halla la probabilidad
de que no comience por 1.
b. Supongamos que las páginas de la fuente de datos disponible contienen 75 números
cada una. Halla la probabilidad de que en una página cualquiera al menos uno de
los números comience por 9. Calcula el número de páginas que sería necesario revisar
para que la probabilidad de encontrar al menos 2 páginas en las que ningún número
comience por 9 supere el 90%.
En España, este modelo ha saltado recientemente a los medios de comunicación a propósito
de ciertos papeles vinculados con un caso de presunta corrupción publicados por un diario
de tirada nacional. La siguiente tabla presenta la distribución de frecuencias del primer
dígito de todos los números de los papeles publicados por dicho diario.
Probabilidad
Primer dígito Frecuencia Frec. Relativa Ley de Benford
1 178
2 154
3 122
4 48
5 102
6 104
7 25
8 44
9 36
Total 813

c. Completa la tabla anterior y haz los gráficos que consideres más apropiados para la
distribución de frecuencias y para la de probabilidades. Compara y comenta los gráfi-
cos.
d. En estos papeles aparecen 813 números, de los cuales menos de 180 comienzan por 1.
Si fuera cierto que los datos de los papeles se ajustan a la ley de Benford, ¿sería extraño
haber observado este hecho?
Solución a) Se trata obviamente de una probabilidad condicionada que se puede calcular
como sigue
 ({ = 1} ∩ { Impar})
 ( 6= 1 / Impar) = 1 −  ( = 1 / Impar) = 1 −
 ( Impar)
 ( = 1)
= 1−
 ( = 1) +  ( = 3) +  ( = 5) +  ( = 7) +  ( = 9)
030103
= 1−
030103 + 012494 + 007918 + 005799 + 004576
= 1 − 049438 = 050562

b) Si denominamos  a la variable “Número de cantidades que comienzan por 9 en una


página de 75 números” es obvio que esta variable sigue una distribución  (75 ) donde
 es la probabilidad de que un número cualquiera comience por 9. Esta probabilidad es
 ( = 9) = 004576. Debemos calcular entonces
 ( ≥ 1) = 1 −  ( = 0) = 1 − (1 − 004576)75 = 097019
Para calcular el número  de páginas que sería necesario revisar para que la probabilidad
de encontrar al menos 2 páginas en las que ningún número comience por 9 supere el 90%
consideramos la variable  “Número de páginas en las que ningún número comienza por
9 de entre las  a revisar”. Como antes es claro que esta variable tiene una distribución
 ( 1 − 097019) ≡  ( 002981) ya que 097019 es la probabilidad de que en una página
de 75 números al menos uno de ellos comience por 9. Debemos entonces calcular  para
que se verifique
 ( ≥ 2)  09 ⇐⇒  ( ≤ 1)  01
Para obtener  tendremos que aproximar la distribución binomial mediante la normal o
la Poisson. Como el segundo parámetro de la distribución binomial es compatible con la
aproximación por Poisson efectuamos primero la aproximación mediante esta distribución,
teniendo claro que si obtenemos un valor de  que permitiera la aproximación por la
normal (  5) deberíamos hacer posteriormente la aproximación binomial-normal por
ser esta más precisa. Usando la aproximación binomial-Poisson tenemos que para que
 ( ≤ 1) '  ( (002981) ≤ 1)  01
deber ser  = 002981 ≥ 4, usando las tablas de la distribución de Poisson. Despejando
 ≥ 134228 con lo que obtenemos  ≥ 135. Ahora comprobamos que  = 135·002981·
097019 = 39044  5 y que por tanto esta es la aproximación correcta.
c) La tabla nos queda como sigue
Frec. Relativa Probabilidad
Primer dígito Frecuencia Frec. Relativa Acumulada Ley de Benford
1 178 021894 021894 030103
2 154 018942 040836 017609
3 122 015006 055843 012494
4 48 005904 061747 009691
5 102 012546 074293 007918
6 104 012792 087085 006695
7 25 003075 090160 005799
8 44 005412 095572 005115
9 36 004428 1 004576
Total 813
En cuanto a los gráficos pedidos lo apropiado es hacer digaramas de varillas puesto que
la variable es numéricas discreta. Como queremos comparar lo que se observa en los pa-
peles y lo que dice la ley de Benford podemos usar el siguiente diagrama

32
Papeles
28 Benford

24
Porcentaje

20

16

12

0
1 3 5 7 9
2 4 6 8

Parece claro que los papeles no se ajustan bien a una ley de Benford puesto que en esos
papeles hay menos cifras de las esperadas que comiencen por 1 y más de las que deberían
empezar por 5 y 6 si los datos siguieran una ley de Benford.
d) Para valorar si es extraño observar menos de 180 números que comienzan por 1 de
entre los 813 totales consideramos la variable  “Número de cantidades que comienzan
por 1 de entre 813 números”. De nuevo esta variable tiene una distribución  (813 030103)
ya que  ( = 1) = 030103. Debemos calcular
 (  180) =  (  1795)
µ ¶
 −  1795 − 813 · 030103
=  √ √
 813 · 030103 · 069897
'  ( (0 1)  −49879) = Φ (−49879) ' 0
utilizando la aproximación bonomial-normal puesto que  = 813 · 030103 · 069897 =
17106  5. Por tanto si los datos siguieran la ley de Benford sería muy dificil (probabili-
dad prácticamente 0) observar lo que aparece en estos datos.
Notar que esto sólo quiere decir que los datos no siguen la ley de Benford y no necesa-
riamente que los datos estén manipulados ya que el número de ordenes de magnitud que
abarcan estos datos no es lo suficientemente grande como para esperar un buen ajuste
aunque los datos no estén manipulados.
Estadística 1 Grados de Mecánica, Química y
Organización Industrial
14 de junio de 2013

Problema 1 (4 puntos) Debemos optar entre dos tipos de material textil en forma de
cinta para construir sistemas de amarre. Se sospecha que la resistencia de estos sistemas se
ve afectada por la humedad relativa ambiental. M1 es el material que se viene utilizando
hasta la fecha y M2 es un nuevo material textil, supuestamente más resistente, más estable
(frente a cambios en la humedad relativa) y más caro. Para tomar decisiones sobre el
material de manera fundamentada valorando riesgos, el ingeniero responsable, que cursó
sus estudios en Valladolid, recuerda diversos procedimientos estadísticos que aprendió en
la carrera y se dispone a aplicarlos. Selecciona aleatoriamente una muestra de 25 carretes
de cinta textil de cada uno de los tipos de material. En cada uno de esos 50 carretes
prueba 2 fragmentos de cinta, uno de ellos trabajando en condiciones de humedad alta
(60%) y el otro en humedad baja (20%), midiendo su tensión de ruptura. Los resultados
obtenenidos aparecen en la tabla de valores que sigue. Aparece anotado el n de carrete, la
humedad relativa (HR), el tipo de material (M) y la tensión de ruptura (TR) en 2 .
Xmed son las medias de TR en las muestras y S sus desviaciones típicas corregidas. Las 4
últimas filas de la tabla son diferencias, con sus medias y desviaciones típicas muestrales
al final (1 y 2 indican el material; a y b indican la humedad alta o baja respectivamente).
Todas las muestras son compatibles con hipótesis de normalidad.
carrete nº
M HR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Xmed S
20% 87.8 89.7 91.9 89.6 88.9 89.9 93.4 90.6 89.2 90.3 89.7 89.6 89.9 85.0 89.7 87.0 87.6 91.5 86.3 86.0 88.3 89.3 88.7 88.1 88.4 89.06 1.86
M1
60% 83.8 86.1 83.6 86.5 87.4 85.7 79.4 86.7 92.2 89.8 87.5 86.8 86.3 88.9 91.3 86.0 88.2 88.5 85.6 84.2 90.5 83.0 86.1 92.9 87.1 86.98 3.02
20% 87.4 88.5 90.8 89.6 88.9 88.5 89.7 90.6 90.0 86.6 91.4 89.8 89.4 90.7 89.0 93.5 89.9 89.9 88.1 91.0 88.1 85.0 93.1 88.6 92.0 89.61 1.90
M2
60% 87.6 87.7 90.3 90.1 89.3 88.6 90.6 89.1 88.8 88.3 88.9 87.2 90.6 89.8 90.0 89.6 91.4 90.8 88.9 86.0 88.1 86.7 91.6 87.4 88.2 89.02 1.47
D 1b‐1a 4.0 3.6 8.3 3.1 1.5 4.2 14.0 3.8 ‐3.0 0.5 2.2 2.8 3.6 ‐3.9 ‐1.6 1.0 ‐0.6 3.0 0.7 1.8 ‐2.1 6.2 2.6 ‐4.8 1.3 2.09 3.93
D 2b‐2a ‐0.2 0.8 0.5 ‐0.5 ‐0.3 ‐0.1 ‐0.9 1.5 1.2 ‐1.7 2.5 2.6 ‐1.2 1.0 ‐1.0 4.0 ‐1.5 ‐0.9 ‐0.9 5.0 0.0 ‐1.7 1.5 1.2 3.7 0.59 1.84
D 2a‐1a 3.7 1.5 6.7 3.6 1.9 2.9 11.2 2.4 ‐3.4 ‐1.5 1.4 0.4 4.3 0.9 ‐1.3 3.6 3.2 2.3 3.3 1.8 ‐2.4 3.6 5.5 ‐5.6 1.1 2.04 3.38
D 2b‐1b ‐0.4 ‐1.2 ‐1.1 0.0 0.0 ‐1.4 ‐3.6 0.0 0.9 ‐3.8 1.7 0.2 ‐0.5 5.8 ‐0.7 6.5 2.3 ‐1.6 1.8 5.0 ‐0.2 ‐4.3 4.3 0.5 3.5 0.55 2.82

a) Construye una cota inferior de confianza del 95% para la mejora que ofrece M2 respecto
de M1 en cuanto al valor medio de TR en condiciones de HR alta (60%).
b) ¿Hay evidencias fuertes de que la TR del nuevo material M2 sigue viéndose afectada
por cambios de la HR y, por tanto, las afirmaciones del fabricante sobre estabilidad
son en realidad falsas?
c1) ¿Estos datos corroboran que en condiciones de humedad baja M2 es más resistente
que M1?
c2) Siguiendo con el mismo contraste, calcula ahora la capacidad que tiene el test de nivel
0.01, para detectar una mejora de 175 kg/mm2 del valor medio de TR en condiciones
de HR baja (20%).
Dado el mayor coste de M2, su uso sólo compensa cuando en las condiciones habituales
de HR baja, su TR esperada sea 175 2 superior a la de M1. Determina de
forma aproximada el mínimo tamaño muestral necesario para que el test de nivel 001
detecte esta mejora crítica con una probabilidad de al menos 095.
d) Determina si estos datos proporcionan un argumento fuerte para afirmar que, como
aseguran las especificaciones del fabricante, en ambiente de HR alta (60%) el nuevo
material mejora el valor medio de la tensión de ruptura en más de 12 .
Problema 2 (3 puntos) Se envasan patatas en sacos que se comercializan como de
4. Para contrarrestar las mermas que se produzcan durante el periodo de distribu-
ción, los límites de especificación para el proceso de envasado son de 4020 ± 0030 
(nominal±margen de error). Se trabaja con dos variedades de patatas, A y B. El peso en
kg de los sacos de la variedad A sigue una ley normal (    ) = (4010 0010) y el
de los sacos de la variedad B una ley normal (    ) = (4020 0015). Los sacos de
la variedad A se embalan en palés de 120 sacos que se distribuyen al pequeño comer-
cio de alimentación de una gran ciudad. En los palés se incluyen además, de regalo, 5
sacos de la variedad B que se quieren promocionar en ese tipo de establecimientos.
NOTA: En este problema trabajar con una precisión de 4 cifras decimales.
a) Se inspecciona un palé y se elige un saco al azar cuyo peso resulta estar fuera de las
especificaciones. Hallar la probabilidad de que sea de la variedad B.
b) Se inspeccionan 123 palés eligiendo siempre un saco de la variedad A. Si el saco no
cumple las especificaciones se rechaza el palé. Hallar la probabilidad de que sean
rechazados más de 5 palés.
c) Si las especificaciones para el peso total de los palés son 50145 ± 025, hallar la
proporción de palés que quedan fuera de las especificaciones.
d) Si se pudiera intervenir en el proceso de envasado de los sacos de la variedad A modi-
ficando la media y la desviación típica, ¿qué valores deberían tener estos parámetros
para que el proceso de configuración de los palés estuviera centrado (media=nominal) y
el 99% de los palés estuviera dentro de las especificaciones? (El proceso de la variedad
B no se modifica)
Problema 3 (3 puntos) En un artículo de Narula y Wellington en Technometrics en
1977 se presentan datos sobre precios de venta de un determinado artículo y de impuestos
pagados por dicho artículo en 24 almacenes situados en diferentes condados. Se decide
estudiar si existe una relación lineal entre ambas variables para lo que se ajusta un modelo
de regresión lineal simple con "Impuestos” como variable explicativa y "Precio de venta”
como respuesta. Parte de los resultados obtenidos en dicho análisis aparece a continuación.
a) Completar tablas anteriores. ¿Qué porcentaje de la variabilidad del precio de venta es
explicado por los impuestos?
b) Las autoridades de un condado afirmaban que estaban seguras de que un aumento de
2 unidades en los impuestos supondría un aumento menor que 7 unidades en el precio.
Valorar estadísticamente dicha afirmación mediante el p-valor apropiado.
c) Las autoridades de ese mismo condado decidieron establecer un valor de 5 unidades
para los impuestos. Dar una cota superior del 95% para el precio promedio del artículo
en el condado.
d) ¿Qué puedes decir sobre cada una de las hipótesis del modelo? Razonar la respuesta.
¿Existen problemas con alguna de las observaciones presentes en el modelo? Justificar.

Analysis of Variance
Source DF Sum of Sq. M.S. F Val Pr.F 2,5

Model ?? ????? ????? 72.56 ????? 1,5


Studentized residual

Error ?? ????? 8.76775 ????


0,5
Total ?? ?????
 = 57563  = 64049 -0,5

Parameter Estimates -1,5


Variable Estim. St. Err. t Val. Pr.|T|
Intercept 13.3202 ???? 5.17948 ???? -2,5
26 29 32 35 38 41 44
Impuestos 3.32437 0.390276 ???? ???? predicted Precio
Estadística 1 Grados de Mecánica, Química y
Organización Industrial
Soluciones
14 de junio de 2013

Problema 1 En este problema es claro que las variables que se refieran a observaciones
del material M1 serán independientes de las que se refieran al material M2 puesto que los
materiales y los carretes correspondientes son distintos. Por otra parte las comparaciones
que se hagan dentro del mismo material para los distintos niveles de humedad serán de
muestras pareadas puesto que se están utilizando dos trozos del mismo carrete a diferentes
niveles de humedad.
a) Teniendo en cuenta lo anterior en este apartado disponemos de dos muestras inde-
pendientes. Para construir la cota sobre la diferencia de medias debemos comprobar
primero si podemos o no suponer varianzas iguales en las dos poblaciones. Denotemos
por 1 y 2 las resistencias medias de los carretes de material M1 y M2 a nivel de
humedad alto y por  1 y  2 las desviaciones típicas correspondientes. El test de
comparación de varianzas es el siguiente:
0 :  1 =  2
1 :  1 6=  2
2 2
El estadístico de contraste es 0 = 1
2 = 302
1472
= 4221. El p-valor de este contraste
2
será 2 (2424  4221)  2 (2424  266) = 002 con lo que rechazamos la hipótesis
nula a los niveles habituales y debemos suponer que  1 6=  2 .
Calculamos ahora la cota inferior del 95% para que 2 −1 se pedía en el apartado.
s
¡ ¢ 21 22
2 − 1 ≥  2 −  1 −  +
1 2
r
3022 1472
= (8902 − 8698) − 1689 + = 090541
25 25
  2
2 2
1 + 2
1 2
donde  = 
2
2 
2
2 − 2 = 3566 y 36005 ' 1676 (interpolando).
1 2
1 2
1 +1
+  +1
2

b) En este apartado estudiamos qué ocurre con el comportamiento del material M2


cuando la humedad cambia, con lo que tenemos muestras pareadas. Así pues, si
denotamos por 2 y 2 la resistencia media del material M2 a niveles de humedad
alto y bajo respectivamente, debemos contrastar:
0 : 2 = 2 0 :  = 0
o, de forma equivalente,
1 : 2 6= 2 1 :  6= 0
 2 − 2 −059
donde  = 2 − 2 . El estadístico de contraste es 0 = 
√
= 184 = −16033 y
 5
el p-valor será  (|0 |  |−16033|) = 2 (0  16033). Como 0 tiene, bajo la hipótesis
nula una distribución  con −1 = 24 grados de libertad tenemos, utilizando las tablas,
que
2 (0  1711)  2 (0  16033)  2 (0  1318)
2 · 005   −   2 · 01
01   −   02
con lo que no rechazamos la hipótesis nula a los niveles habituales y no hay evidencias
en contra de la estabilidad anunciada por el fabricante.
c1) Ahora comparamos los dos materiales de nuevo por lo que las muestras serán indepen-
dientes. Como queremos comparar medias de poblaciones normales independientes
comparamos otra vez primero las varianzas de las poblaciones para ver si podemos
suponerlas homogéneas o no. El test de comparación de varianzas es ahora el sigu-
iente:
0 :  2 =  1
1 :  2 6=  1
2 1902
El estadístico de contraste es 0 = 2
2 = 1862 = 10435. El p-valor de este contraste
1
será 2 (2424  10435)  2 (2424  132) = 05 con lo que no rechazamos la
hipótesis nula a los niveles habituales y podemos suponer que  2 =  1 .
El contraste de medias de este apartado es claramente de un lado puesto que en el
enuciado se nos pregunta si los datos corroboran que en condiciones de humedad baja
M2 es más resistente que M1. Por tanto el contrastre a realizar es:
0 : 2 = 1
1 : 2  1
El estadístico de contraste es
 2 −  1 055
0 = q = q = 10343
1 1 2
 1 + 2 188 25
( −1)2 +( −1)2
donde 2 = 1 11+2 −2 2 2
= 24
48
(1902 + 1862 ) = 35348. Es claro de las tablas de
la distribución  que, puesto que 0 sigue una distribución  con 48 grados de libertad,
el p-valor es mayor que 01 y por tanto no se rechaza la hipótesis nula a los niveles
habituales y los datos no corroboran que M2 es más resistente que M1 en HR baja.
c2) Nos piden la potencia que el contraste de hipótesis del apartado anterior (con  = 001)
en el punto 2 − 1 = 175 de la hipótesis alternativa. Considerando la curva OC h
calculamos  = 22−1
' 175
2
175
= 2·188 = 046543 y de la curva obtenemos que el error
de tipo II es aproximadamente 013 con lo que  (175) ' 087.
En cuanto al tamaño muestral necesario para tener una potencia 095 en ese punto,
utilizando de nuevo la misma carta obtenemos que para tener  (175) = 095 es
necesario que ∗ = 2 − 1 sea al menos 75 con lo que serían necesarios  ≥ 38 carretes
de cada material.
d) Ahora debemos efectuar el contraste
0 : 2 − 1 ≤ 1
1 : 2 − 1  1
Como estamos comparando los dos materiales estamos de nuevo en una situación de
muestras independientes y en este caso el contraste es de un lado. De nuevo debemos
comparar las varianzas. El contraste de varianzas es el que ya hicimos en el primer
apartado donde concluimos que  1 6=  2 . Por tanto el contraste de medias de este
apartado se hará bajo estas condiciones y tenemos
 2 −  1 − ∆0 204 − 1
0 = q 2 = q = 15482
1 22 3022 1472
1
+ 2 25
+ 25
Dado que 0 tiene bajo la hipótesis nula una distribución aproximada 36 el p-valor
 (0  15842) será en cualquier caso superior a 005 (e inferior a 01) con lo que los
datos no proporcionan evidencias al nivel habitual 005 de que M2 mejore a M1 en
más de 12 en condiciones de HR alta (sí habría evidencias a nivel 01).
Estadı́stica E.I.I.
14 de junio de 2013

Problema 2 (3 puntos)

a) Utilizaremos la siguiente notación:


A = {saco de la variedad A}, B = {saco de la variedad B },
D = {saco de patatas fuera de las especificaciones}
XA =Peso de un saco de la variedad A, XA N (µA , σA ) = N (4.010, 0.010)
XB =Peso de un saco de la variedad B XB N (µB , σB ) = N (4.020, 0.015)
Aplicando la Regla de Laplace tenemos que
120 5
P (A) = = 0.96 y P (B) = = 0.04.
125 125
Por otra parte, podemos obtener las probabilidades condicionadas

P (D/A) = P ((XA > LSE) ∪ (XA < LIE)) = P (XA > LSE) + P (XA < LIE)

X A − µA 4.050 − 4.010 X A − µA 3.090 − 4.010


= P( > )+P ( < ) = 1−Φ(4)+Φ(−2) = 0.0228,
σA 0.010 σA 0.010
P (D/B) = P ((XB > LSE) ∪ (XB < LIE)) = P (XB > LSE) + P (XB < LIE)
X B − µB 4.050 − 4.020 XB − µB 3.090 − 4.020
= P( > )+P ( < ) = 1−Φ(2)+Φ(−2) = 0.0456.
σB 0.015 σB 0.015

Aplicando la Regla de Bayes, la probabilidad pedida es:

P (B)P (D/B) 0.04 × 0.0456


P (B/D) = = = 0.0769.
P (A)P (D/A) + P (B)P (D/B) 0.96 × 0.0228 + 0.04 × 0.0456
b) La inspección de los palés es un Proceso de Bernoulli : Cada palé es Aceptado o Rec-
hazado en función de que el saco de la variedad A inspeccionado en cada caso Cumpla
o No Cumpla las especificaciones. Es decir, con la notación del apartado a), tenemos
un ensayo de Bernoulli con resultados {D, D} y probabilidades p = P (D/A) = 0.0228
y q = 1 − p, que se repite n = 123 veces.
Denotemos N = Número de palés rechazados de los 123 inspeccionados. Sabemos que
N b(n, p) = b(123, 0.0228).
Como n = 123 es grande y np = 123 × 0.0228 = 2.80 ∈ (1, 10), podemos utilizar la
Aproximación de Poisson b(n, p) ∼ ℘(np). Nótese que la Aproximación Normal no
serı́a válida por ser npq < 5.
Utilizando las Tablas de la Ley de Poisson obtenemos la probabilidad pedida:

P (N > 5) = 1 − P (N ≤ 5) = 1 − 0.955 = 0.065.

c) Utilizaremos la siguiente notación para el peso de los sacos y del palé:


XAi =Peso del saco no i de la variedad A, i = 1, ..., 120. XAi N (µA , σA ) = N (4.010, 0.010)
XBj =Peso del saco no j de la variedad B, j = 1, ..., 5. XBj N (µB , σB ) = N (4.020, 0.015).
T =Peso total del palé.
120
X 5
X
T = XAi + XBj
i=1 j=1

La variable aleatoria T es una combinación lineal (suma) de las variables XAi y XBj
anteriores, que son además normales e independientes. Por tanto, tenemos

120
X 5
X
T = XAi + XBj N (µT , σT ) = N (501.3, 0.1146)
i=1 j=1
ya que
120
X 5
X
µT = µA + µB = 120µA + 5µB = 501.3
i=1 j=1
v
u 120 5 q
uX X
2
σT = t σA + σB = 120σA2 + 5σB2 = 0.1146.
2

i=1 j=1

La proporción de palés que quedan fuera de las especificaciones es

P ((T > LSE) ∪ (T < LIE)) = P (T > LSE) + P (T < LIE) =

T − µT 501.70 − 501.30 T − µT 501.20 − 501.30


= P( > ) + P( < )=
σT 0.1146 σT 0.1146
= 1 − Φ(3.4915) + Φ(−0.8729) = 0.0002 + 0.1922 = 0.1924,

es decir, el 19.24% de los palés quedan fuera de las especificaciones, la inmensa mayorı́a
por pesar menos de lo requerido.
d) Denotemos por (µ0A , σA0 ) y (µ0T , σT0 ) los nuevos valores de los parámetros del proceso
tras la intervención en el mismo destinada a centrarlo y a disminuir la desviación tı́pica.
Para centrar el proceso, tenemos que conseguir que µ0T = 501.45. Una vez centrado,
para que el 99% esté dentro de las especificaciones, tenemos que conseguir que

LSE − µ0T 0.25 0.25


0
= 0 = 2.58; es decir σT0 = = 0.0969.
σT σT 2.58

Utilizando expresiones similares a las del apartado c) para (µ0T , σT0 ) tendrı́amos:

µ0T = 120µ0A + 5µB = 501.3,


501.45 = 120µ0A + 5 × 4.020
µ0A = 4.01125kg.
q
σT0 = 120σA02 + 5σB2 = 0.0969kg.
r
0 σT02 − 5σB2
σA = = 0.0083kg.
120
Problema 3 a) La tabla ANOVA completa es la siguiente:
Source DF Sum od Sq. M.S. F Val Pr.F
Model 1 636.188 636.188 72.56  001
Error 22 192.891 8.768 [No existe]
Total 23 829.078
Hemos usado que  = 7256 =  = 876775 para obtener  =
636188 = 1. Usando que 876775 =  = (24 − 2) obtenemos  =
1928905 y (Total) =  +  = 8290784. Los grados de libertad se obtienen
facilmente usando que  = 24. Para acotar el -valor utilizamos que  [“122 ” 
7256]  001 ya que 122;001 = 795.
La tabla de coeficientes completa es:
Variable Estim. St. Err. t Val Pr. |T|
INTCT. 13.3202 2.571725 5.17948 0.001
IMP. 3.32437 0.390276 8.517998 0.001
Para completar esta tabla se usó que  = b s.e.(b ). El -valor de la variable
“Impuestos” se obtiene como  (|“22 ”|  |8517998|) = 2 ×  (“22 ”  8517998) 
2 × 00005 = 0001 ya que 22;00005 = 795. De forma análoga se obtiene un -valor
 0001 para el “intercept”.
La variabilidad del “precio de venta” que es explicada por la variable “impuestos”
se obtiene mediante el
 636188
2 = = = 076734
(Total) 8290764
(es decir, se explica un 76734% de la variabilidad).
b) Debemos realizar el test ½
0 :  1 ≥ 72 = 35
1 :  1  72 = 35
(el modelo nos diría que el incremento medio de la variable respuesta  es 2 ·  1 si
incrementamos la  en 2 unidades). Como
c − 35 332437 − 35

= 1 = = −045
s.e.(c
1) 0390276
tenemos el -valor=  (“22 ”  −045) =  (“22 ”  045) ∈ [025 04]. Esta acotación
se obtiene usando que 22;025 = 0686 y 22;04 = 0256. El -valor es grande y no se
puede rechazar 0 . Por tanto, no queda probada estadísticamente la afirmación de
las autoridades del condado.
c) Nos piden una cota de confianza del 95% para la respuesta media cuando  = 0 = 5.
La predicción de la respuesta para ese valor de la  será
b0 = c c1 0 = 133202 + 332437 · 5 = 29942
0 + 
y la cota pedida ( = 005) es
s µ ¶ s µ ¶
1 (0 − ) 2 1 (5 − 6405)2
b0 + 22;005  + = 29942 + 1717 8768 +
  24 57563
= 31343
d) Respecto a la hipótesis de linealidad no detectamos una curvatura demasiado clara
en el plot de residuales. Tampoco se puede ver que los residuales tengan dispersiones
claramente mayores en unas partes del gráfico que en otras y, por tanto, no detecta-
mos problemas graves de heterogeneidad de la varianza. La hipótesis de normalidad
no puede ser validada porque no contamos con el plot de normalidad de los residuos.
Tampoco tenemos herramientas para valorar la hipótesis de independencia de los er-
rores. Existe una observación con residual estudentizado fuera de la banda [−2 2]. No
obstante, tampoco se sale de las bandas [−3 3] y un 5% de los residuales estudentiza-
dos no es raro que estén fuera de la banda [−2 2]. Tampoco tenemos información que
nos permita valorar si alguna observación ha sido punto de influencia.
A la vista de los comentarios anteriores, los datos que estamos ajustando podrían
verificar las hipótesis habituales del modelo de regresión lineal aunque nos faltan los
resultados de algunas herramientas importantes de validación del modelo.
Estadística 1 Grados de Mecánica, Química y
Organización Industrial
16 de julio de 2013
Problema 1 (4 puntos) La seguridad vial entra dentro del ámbito de competencias de
la Ingeniería Industrial. Los ingenieros de la Dirección General de Tráfico realizan constan-
temente estudios a partir de los datos que recogen los numerosos dispositivos instalados
en la red viaria, así como de los proporcionados por los atestados de los accidentes. En
estos momentos se debate, por ejemplo, la posibilidad de modificar los límites de veloci-
dad en los distintos tipos de vía, para adaptarlos a las nuevas circunstancias y hábitos de
conducción. En un estudio reciente, se comparan los hábitos de conducción en las comu-
nidades autónomas A y B en relación con la velocidad de circulación por autovía. Para
ello, se seleccionan de forma apropiada varios tramos de autovía, unos en A y otros en B,
y se recogen mediante radares de tramo las velocidades de dos muestras aleatorias de los
vehículos que transitaron por dichos tramos. La tabla siguiente muestra un resumen de
los datos recogidos. Se supone normalidad para las variables estudiadas.
Comunidad Tamaño de muestra Promedio muestral Varianza muestral
A 38 12394 2190()2
B 38 12768 2809()2
a) ¿Queda justificada estadísticamente para  = 005 la afirmación de que la velocidad
media en autovía es superior en la comunidad B que en la A?
b) En caso de que la verdadera velocidad media en la comunidad B fuera 3kmh mayor
que en la A, obtén la potencia del contraste utilizado en el apartado anterior. ¿Qué
tamaños muestrales serían necesarios para elevar dicha potencia a 090?
c) ¿Aportan estos datos evidencia suficiente de que en las autovías de B se supera en más
de 3kmh la velocidad media de las autovías de A? Acota el p-valor del contraste.
d) Construye un intervalo de confianza al 99% para la velocidad media en las autovías
de la comunidad . ¿De qué tamaño debería ser la muestra para que el error máximo
fuera de 1kmh?
En una muestra aleatoria de 500 conductores residentes en A se encuentra que 385 son
partidarios de aumentar el límite de velocidad en autovías a 130; en otra muestra
de 400 conductores residentes en B, resulta que 316 están a favor de dicha medida.
e) ¿Puede afirmarse, a partir de estos datos, que el grado de apoyo al aumento del límite
de velocidad es diferente en una comunidad que en la otra? Calcula e interpreta el
−valor del contraste.

Problema 2 (3 puntos) La Prevención de Riesgos Laborales es una parcela de la Inge-


niería Industrial que recibe cada vez más atención. La ocurrencia de accidentes laborales
en un periodo de tiempo y en una determinada actividad se suele modelar suponiendo
que los accidentes se producen de manera aleatoria a lo largo del tiempo, con indepen-
dencia entre lo que ocurre en intervalos de tiempo disjuntos, con una tasa constante,
denominada Índice de Frecuencia (IF) (en accidentes por millón de horas trabajadas),
y asumiendo que en cada instante de tiempo puede producirse a lo sumo un accidente.
En una gran factoría del sector de la automoción, se sabe por datos de los últimos años
que  = 010 106  para los Accidentes Graves. Dicha factoría emplea a
13341 trabajadores que trabajan 1799 horas anuales cada uno según establece el convenio
colectivo vigente.
a) Se sabe que un determinado año han ocurrido más de 3 accidentes graves. Hallar la
probabilidad de que hayan sido menos de 6.
b) Si durante los proximos 25 meses (1 mes = 112 año) se produjeran menos de 2
accidentes, ¿sería eso un indicio claro de disminución del IF?
La empresa remite cada mes un informe de siniestralidad laboral a la autoridad compe-
tente. En el informe se indica el número de accidentes graves ocurridos en dicho periodo.
c) Calcular la probabilidad de que, en un mes cualquiera, el informe emitido no indique
ningún accidente grave.
d) Si en un año hay más de un informe mensual que notifica algún accidente grave, la
empresa recibe una inspección. Hallar la probabilidad de que un determinado año la
empresa sea inspeccionada por este motivo.
e) Si a lo largo de 5 años se producen más de 10 informes mensuales notificando algún
accidente grave, la empresa recibe una sanción económica. Hallar la probabilidad de
que la empresa sea sancionada tras los próximos 5 años.

Problema 3 (3 puntos) En un estudio con 20 familias realizado en 1993 se midieron


las variables “gasto anual en alimentación en 1000$” (Gasto) e “ingresos anuales en 1000$”
(Ingresos). Los datos obtenidos para esas familias fueron:
Familia Gasto Ingresos
1 5.2 28
2 5.1 26
.. .. ..
. . .
19 20.0 112
20 2.9 26
Se ajustó el modelo regresión Gasto =  0 +  1 Ingresos +  obteniéndose:

Source Sum of Squares Df Mean Square F-Ratio P-Value


Model ??????? ?? ??????? ?????? ??????
Residual 43,773 ?? ???????
Total (Corr.) 413,346 ??

Standard T
Parameter Estimate Error Statistic P-Value
Intercept -0,411999 0,763767 ????????? ??????
Slope ??????? 0,0149345 12,3278 ??????
a) Completa las tablas anteriores dando las acotaciones para los -valores que permiten
las tablas de las que dispones. Justifica estadísticamente si los ingresos de una familia
son útiles para explicar sus gastos en alimentación.
b) Realiza el test 0 :  0 = 0 y explica cómo se debe interpretar el resultado de dicho
test para el ajuste que acabamos de realizar.
c) ¿Podemos afirmar que un incremento en los ingresos de una familia en más de 1000$
implican un incremento en los gastos en alimentación superior a 120$?
d) Se ha usado el paquete Statgraphics para dar una predicción del gasto en ali-
mentación de familias con ingresos anuales de 10000$ obteniéndose:

95,00% 95,00%
Predicted Prediction Limits Confidence Limits
Y Lower Upper Lower Upper
??????? -2,10801 ?????? 0,0959181 ??????

¿Cuál sería el valor de dicha predicción? Proporciona un intervalo de confianza al 95%


para el gasto promedio en alimentación de las familias con ingresos de 10000$.
Estadística 1 Grados de Mecánica, Química y
Organización Industrial
Soluciones
16 de julio de 2013

Problema 1 Denotaremos por  la variable “velocidad de un vehículo en un tramo


de autovía de la comunidad A”,  Ã  (    ) y por  la variable “velocidad de un
vehículo en un tramo de autovía de la comunidad B”,  Ã  (    ).
a) En este apartado debemos comparar las velocidades medias en ambas comunidades.
Como las varianzas son desconocidas comenzamos comparando las varianzas para ver
si podemos suponerlas iguales. Esta comparación puede hacerse mediante un contraste
de comparación de varianzas o mediante un intervalo de confianza para el cociente de
las mismas  2  2 . Si efectuamos el contraste tenemos
0 :  2  2 = 1
1 :  2  2 6= 1
2
El estadístico de contraste es 0 = 2 . Este estadístico tiene una distribución


© 3737 bajo la hipótesis
ª © nula y la región
ª crítica del contraste de nivel  será  =
0  37371−2 ∪ 0  37372 . Si efectuamos este contrate a nivel  = 005
tenemos que buscar en las tablas 37370025 . Se puede comprobar que el valor corre-
spondiente a esos grados de libertad no aparece directamente en las tablas. El valor
más próximo es 40400025 = 188. Sabemos además que 40400975 = 140400025 =
219
1188 = 053191. Como 0 = 2809 = 077964 no se rechaza la hipótesis nula a nivel
005.
Además si se observa la tabla puede verse que el valor correspondiente a 37370025
sería ligeramente más alto que el obtenido y por tanto el de 37370975 ligeramente más
bajo con lo que la región crítica sería algo más pequeña que la que se está utilizando
por lo que en ningún caso se rechazaría la hipótesis nula si se emplearan los valores
exactos.
Procedemos por tanto a efectuar la comparación de medias suponiendo varianzas
desconocidas pero iguales. Como el propósito es comprobar si queda justificada es-
tadísticamente la afirmación de que la velocidad media es superior en la comunidad B
que en la A las hipótesis serán
0 :  −  ≥ 0
1 :  −   0
y el estadístico de contraste es
  −   − ∆0 12394 − 12768 − 0
0 = q = q = −32605
 11 + 12 5 38 1 1
+ 38
q q
(1 −1)2 +(2 −1)2 37·219+37·2809
ya que  = 1 +2 −2
= 74
= 49995 ' 5. Como nos piden un
contraste de nivel  = 005 tenemos que la región critica es  = {0  −1 +2 −2 } =
{0  −74005 }. De nuevo en las tablas no encontramos la distribución  con 74 grados
de libertad. El valor de 74005 estará entre 60005 = 1671 y 120005 = 1658 con lo
que en cualquier caso se rechazará la hipótesis nula y concluimos que hay evidencia a
nivel  = 005 de que la velocidad media en autovía es superior en la comunidad B
que en la A.
b) Para obtener la potencia que se pide en este apartado utilizamos las curvas OC, carta
g que corresponde a un t-test unilateral con  = 005. Entramos en la carta con
 = |−3−0|
2
3
' 2·5 = 03 y ∗ = 2 − 1 = 75 y obtenemos que  (−3) ' 0175 y por
tanto  (−3) ' 0825.
Se pregunta también por el tamaño muestral necesario para que esa potencia suba
hasta 09. Utilizando las mismas tablas y el mismo valor de  tenemos que ∗ =
2 − 1 ' 100 con lo que el tamaño muestral en cada una de las dos poblaciones debe
ser  = 51.
c) Puesto que se pide decidir si los datos aportan evidencia suficiente de que en las
autovías de B se supera en más de 3 la velocidad media de las autovías de A, esa
situación (   + 3) debe aparece en la hipótesis alternativa, con lo que debemos
realizar el contraste
0 :  ≤  + 3 0 :  −  ≥ −3
o equivalentemente
1 :    + 3 1 :  −   −3
Para realizar esta comparación de medias debemos decidir si podemos considerar
iguales o no las varianzas desconocidas de las poblaciones. Esta cuestión ya ha sido
resuelta en el primer apartado por lo que de nuevo consideramos las varianzas descono-
cidas pero iguales. Asi pues el estadístico de contraste es
  −   − ∆0 12394 − 12768 − (−3)
0 = q = q = −064512
1 1 1 1
 1 + 2 5 38 + 38
y el p-valor será  (0  −064512) =  (0  064512) donde 0 sigue una distribución
74 bajo la hipótesis nula. Si utilizamos las tablas vemos que
0677 = 120025 ≤ 74025 ≤ 60025 = 0679
0254 = 12004 ≤ 74004 ≤ 60004 = 0254
con lo que en cualquier caso 025 ≤ p-valor ≤ 04 y no rechazamos la hipótesis nula
a los niveles habituales y no hay evidencia suficiente de que en las autovías de B se
supera en más de 3 la velocidad media de las autovías de A.
d) El intervalo de confianza al 99% para la velocidad media en las autovías de la comu-
nidad  será √
 219
  ± 1 −10005 √ = 12394 ± 271 √
1 38
= [12188 12600]
donde se ha utilizado 370005 = 271 ya que 2704 = 400005 ≤ 370005 ≤ 300005 = 275.
Para obtener un error máximo de 1 vemos que si actuamos por tanteo tenemos
que   120 puesto que si tomamos  = 120 y consideramos como muestreo √ piloto
 219
los datos que ya tenemos, el error máximo sería 1 −10005 1 = 2617 120 = 1118.
√ √

Así pues podemos considerar que en este caso 1 −10005 ' 0005 = 2576 y el tamaño
muestral necesario sería
 2 2 25762 · 219
 = 0005 2
= = 14532
max 12
con lo que sería necesaria una muestra de 146 elementos.
e) Denotemos por  y  la proporción de residentes de  y  respectivamente, que
están a favor del aumento del límte de velocidad. Teniendo en cuenta el enunciado el
contraste que se pide es
0 :  −  = 0
1 :  −  6= 0
Dado que los tamaños muestrales son grandes podemos usar el estadístico 0 =
 −
 

donde b = 111 +
,
2
+2
2
, que en estas condiciones tiene una distribución
(1−) 1 + 1
1 2
aproximadamente normal estandar bajo la hipótesis nula. Haciendo los cáculos te-
nemos que b = 385+316
500+400
= 07789 y que
385 316
b − b 500
− 400
0 = r ³ ´=q ¡ 1 ¢ = −071844.
1
b (1 − b) 11 + 1 07789 (1 − 07789) 500 + 400
2

Como se trata de un contraste de dos lados el p-valor del contraste será


 (|0 |  |−071844|) = 2 ( (0 1)  071844)
= 2 (1 − Φ (072)) = 2 (1 − 07642) = 04716
con lo que no se rechaza la hipótesis nula a los niveles habituales y no hay evidencia
suficiente de que el grado de apoyo al aumento del límite de velocidad sea diferente en
una comunidad que en la otra.

Problema 2 En la factoría en estudio, los Accidentes Graves se producen de manera


aleatoria a lo largo del tiempo siguiendo las siguientes pautas:

1. Hay independencia entre lo que ocurre en intervalos de tiempo disjuntos.


2. La tasa, denominada Índice de Frecuencia (IF) (en accidentes por millón de horas traba-
jadas), es constante a lo largo del tiempo.
3. En cada instante de tiempo puede producirse a lo sumo un accidente.
De lo anterior se deduce que los accidentes graves ocurren según un Proceso de Poisson
cuya tasa es el Índice de Frecuencia (IF), es decir  = 010 106 . Como
la factoría emplea a 13341 trabajadores, que trabajan 1799 horas anuales cada uno según
establece el convenio colectivo vigente, el número total de horas anuales que se trabajan
en la factoría es 13341 × 1799 = 24 × 106 .

a) Denotemos por 1 =“Número de accidentes ocurridos en un año". Sabemos que esta


6
variable aleatoria sigue la distribución de Poisson con parámetro  = 01×24×10
106
, es
decir,
1 Ã (24)
Entonces, utilizando las tablas de la distribución de Poisson, la probabilidad pedida
es
 (3  1  6)  (1 ≤ 5) −  (1 ≤ 3)
 (1  61  3) = =
 (1  3) 1 −  (1 ≤ 3)
0964 − 0779
= = 0837
1 − 0779
b) Denotemos por 2 =“Número de accidentes que ocurrirán en los próximos 25 meses".
Sabemos que esta variable aleatoria sigue la distribución de Poisson con parámetro
6
 = 01×24×10
106
× 25
12
= 5, es decir,
2 Ã (5)
Entonces, utilizando las tablas de la distribución de Poisson, obtenemos
 (2  2) =  (2 ≤ 1) = 0040
lo cual quiere decir que ese suceso ocurriría poco frecuentemente con la tasa de acci-
dentes actual (su probabilidad está por debajo del umbral habitual 005 usado en la
inferencia estadística). Sin embargo, sería más probable observar un número tan bajo
de accidentes si la tasa hubiera disminuído.
A modo de ejemplo, para  = 008 106  dicha probabilidad sería
0092 y para  = 005 106 , 0287.
c) Denotemos por 0 =“Número de accidentes que ocurrirán en un mes". Sabemos
01
que esta variable aleatoria sigue la distribución de Poisson con parámetro  = 10 6 ×
24×10 6
12
= 02, es decir,
0 Ã (02)
Entonces, utilizando las tablas de la distribución de Poisson, la probabilidad pedida
es
 (0 = 0) = 0819
d) Denotemos por 1 =“Número de meses de un año en los que el informe mensual
notifica algún accidente grave". Es fácil reconocer en el seguimiento de los informes
mensuales un Proceso de Bernoulli con  =  (0  0) = 1 − 0819 = 0181 De este
modo, se tiene que 1 sigue una distribución binomial
1 Ã ( ) = (12 0181)
La probabilidad de que un determinado año la empresa sea inspeccionada por este
motivo es
 (1  1) = 1 −  (1 = 0) −  (1 = 1)
µ ¶ µ ¶
12 12 12
= 1− 0819 − × 0181 × 081911 = 06674
0 1
e) Denotemos por 2 =“Número de meses a lo largo de cinco años en los que el informe
mensual notifica algún accidente grave". Estamos ante el mismo Proceso de Bernoulli
del apartado anterior. Ahora se tiene que 2 sigue una distribución binomial

2 Ã ( ) = (60 0181) ∼
= ( ) = (1086 298)
La aproximación binomial-normal está justificada ya que   5. Así pues, la pro-
babilidad de que la empresa sea sancionada tras los próximos 5 años es
µ ¶
2 −  10 − 1086
 (2  10) =  √ 
 298
µ ¶
∼ 10 + 05 − 1086
= 1−Φ = Φ(012) = 05478
298

Problema 3 Comenzamos completando las tablas.


a) Tenemos:
Source SS Df MS  -ratio -valor
Model 369.573 1 369.573 151.963  001
Residual 43.773 18 2.432
Total 413.346 19
Parameter Estimate Stand. Err. -statistic -value
Intercept -0.411999 0.763767 -0.5394  05
Slope 0.1841095 0.014935 12.3287  0001
Para obtener la primera tabla hemos usado que  = ( )− = 413346−
43773 = 369575 y que los grados de libertad del  son  − 2 = 20 − 2 = 18.
De esta forma obtenemos  = 1 = 369575,  = 18 = 2432 y
 =  = 151963. La acotación del -valor es debida a que  = 151963 
118;001 = 829. Como consecuencia, vemos que la regresión es significativa y se
justifica estadísticamente que los ingresos de la familia sean útiles para explicar sus
gastos en alimentación.
Para la segunda tabla hemos usado que  =  b s.e.(
b ), donde 
b es el estimador
y s.e.(b ) es su error estandard. En la acotación de los -valores partimos de que
 (18  05394) ∈ [025 04] para tener
 (|18 |  | − 05394|) = 2 ×  (18  05394) ∈ [05 08]
y, análogamente,  (|18 |  |123287|)  0001 ya que 123287  18;00005 = 3922.
b) Tal como hemos visto en el apartado anterior, el test 0 :  0 = 0 tenía un -valor
grande (mayor que 0.5). Con dicho -valor se debe aceptar la hipótesis nula 0 y no
tenemos evidencia estadística para rechazar que  0 pueda ser 0. Por tanto, dando por
válido el modelo de regresión, el valor medio de la respuesta  puede ser igual a 0
cuando la variable explicativa  toma el valor 0. Esto diría que el gasto medio de una
familia sin ingresos (ingresos= 0) sería igual a 0 (sin ingresos no se puede consumir).
Hay que asegurarse de no estar extrapolando al hacer esta interpretación. Es decir,
necesitaríamos contar con valores de la variable explicativa ingresos próximos al 0
en nuestro conjunto de datos.
c) El parámetro  1 se interpreta como el incremento medio en la respuesta  si incremen-
tamos la variable explicativa  en una unidad (aquí, una unidad sería un incremento
en los ingresos de 1000$ y las unidades de la respuesta también son 1000$). Por tanto,
nos piden realizar el test ½
0 :  1 ≤ 012

1 :  1  012
Usamos
c − 012
 01841095 − 012
= 1 = = 4292453  18;0001 = 361
c1 )
( 00149354
Con un -valor tan pequeño (menor que 0001), se rechaza 0 y queda probado es-
tadísticamente que los incrementos en ingresos en más de 1000$ implican incrementos
en los gastos superiores a 120$ en promedio.
d) Para obtener la predicción evaluamos la recta ajustada en  = 10 (10 unidades son
10000$) obteniendose:
c0 + 
b =  c1 · 10 = −0411999 + 01841095 · 10 = 1429096
Es decir, estimamos que el gasto en alimentación será de 1429096$.
Nos piden también un intervalo de confianza para la respuesta media (gasto promedio).
Dicho intervalo de confianza está centrado en la predicción 1429096 y su extremo
inferior es el 00959181 (debemos usar el “Confidence Lower" y no el “Prediction
Lower" que es el extremo inferior del intervalo de predicción). Por tanto, el extremo
superior es 1429096 + (1429096 − 00959181) = 2762274. Es decir, el gasto promedio
en alimentación de las familias con ingresos de 10000$estará entre 959181$ y 2762274$
con una garantía del 95%.

También podría gustarte