Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Organización Industrial
Examen Intermedio. 15 de abril de 2013
Problema. La Ley de Benford es una ley de probabilidad discreta que sirve para modelar
la distribución del primer dígito de fuentes de datos reales procedentes tanto del ámbito
socioeconómico como de la ciencia y la tecnología. Esta ley se define como:
( = ) = log10 ( + 1) − log10 () para = 1 2 9.
No todas las fuentes de datos se ajustan a la ley de Benford, si bien el ajuste tiende a
ser mejor cuantos más órdenes de magnitud abarcan los datos. El ajuste a esta ley se ha
utilizado en ocasiones judicialmente para tomar decisiones sobre la veracidad o falsedad de
datos fiscales o de contabilidad, entendiendo que si unos datos de este tipo no se ajustan
a la Ley de Benford muy probablemente estarán manipulados. Supongamos inicialmente
que disponemos de una fuente de datos que sigue la Ley de Benford y que los números
anotados en ella son independientes unos de otros.
a. Sabiendo que un determinado número comienza por dígito impar, halla la probabilidad
de que no comience por 1.
b. Supongamos que las páginas de la fuente de datos disponible contienen 75 números
cada una. Halla la probabilidad de que en una página cualquiera al menos uno de
los números comience por 9. Calcula el número de páginas que sería necesario revisar
para que la probabilidad de encontrar al menos 2 páginas en las que ningún número
comience por 9 supere el 90%.
En España, este modelo ha saltado recientemente a los medios de comunicación a propósito
de ciertos papeles vinculados con un caso de presunta corrupción publicados por un diario
de tirada nacional. La siguiente tabla presenta la distribución de frecuencias del primer
dígito de todos los números de los papeles publicados por dicho diario.
Probabilidad
Primer dígito Frecuencia Frec. Relativa Ley de Benford
1 178
2 154
3 122
4 48
5 102
6 104
7 25
8 44
9 36
Total 813
c. Completa la tabla anterior y haz los gráficos que consideres más apropiados para la
distribución de frecuencias y para la de probabilidades. Compara y comenta los gráfi-
cos.
d. En estos papeles aparecen 813 números, de los cuales menos de 180 comienzan por 1.
Si fuera cierto que los datos de los papeles se ajustan a la ley de Benford, ¿sería extraño
haber observado este hecho?
Solución a) Se trata obviamente de una probabilidad condicionada que se puede calcular
como sigue
({ = 1} ∩ { Impar})
( 6= 1 / Impar) = 1 − ( = 1 / Impar) = 1 −
( Impar)
( = 1)
= 1−
( = 1) + ( = 3) + ( = 5) + ( = 7) + ( = 9)
030103
= 1−
030103 + 012494 + 007918 + 005799 + 004576
= 1 − 049438 = 050562
32
Papeles
28 Benford
24
Porcentaje
20
16
12
0
1 3 5 7 9
2 4 6 8
Parece claro que los papeles no se ajustan bien a una ley de Benford puesto que en esos
papeles hay menos cifras de las esperadas que comiencen por 1 y más de las que deberían
empezar por 5 y 6 si los datos siguieran una ley de Benford.
d) Para valorar si es extraño observar menos de 180 números que comienzan por 1 de
entre los 813 totales consideramos la variable “Número de cantidades que comienzan
por 1 de entre 813 números”. De nuevo esta variable tiene una distribución (813 030103)
ya que ( = 1) = 030103. Debemos calcular
( 180) = ( 1795)
µ ¶
− 1795 − 813 · 030103
= √ √
813 · 030103 · 069897
' ( (0 1) −49879) = Φ (−49879) ' 0
utilizando la aproximación bonomial-normal puesto que = 813 · 030103 · 069897 =
17106 5. Por tanto si los datos siguieran la ley de Benford sería muy dificil (probabili-
dad prácticamente 0) observar lo que aparece en estos datos.
Notar que esto sólo quiere decir que los datos no siguen la ley de Benford y no necesa-
riamente que los datos estén manipulados ya que el número de ordenes de magnitud que
abarcan estos datos no es lo suficientemente grande como para esperar un buen ajuste
aunque los datos no estén manipulados.
Estadística 1 Grados de Mecánica, Química y
Organización Industrial
14 de junio de 2013
Problema 1 (4 puntos) Debemos optar entre dos tipos de material textil en forma de
cinta para construir sistemas de amarre. Se sospecha que la resistencia de estos sistemas se
ve afectada por la humedad relativa ambiental. M1 es el material que se viene utilizando
hasta la fecha y M2 es un nuevo material textil, supuestamente más resistente, más estable
(frente a cambios en la humedad relativa) y más caro. Para tomar decisiones sobre el
material de manera fundamentada valorando riesgos, el ingeniero responsable, que cursó
sus estudios en Valladolid, recuerda diversos procedimientos estadísticos que aprendió en
la carrera y se dispone a aplicarlos. Selecciona aleatoriamente una muestra de 25 carretes
de cinta textil de cada uno de los tipos de material. En cada uno de esos 50 carretes
prueba 2 fragmentos de cinta, uno de ellos trabajando en condiciones de humedad alta
(60%) y el otro en humedad baja (20%), midiendo su tensión de ruptura. Los resultados
obtenenidos aparecen en la tabla de valores que sigue. Aparece anotado el n de carrete, la
humedad relativa (HR), el tipo de material (M) y la tensión de ruptura (TR) en 2 .
Xmed son las medias de TR en las muestras y S sus desviaciones típicas corregidas. Las 4
últimas filas de la tabla son diferencias, con sus medias y desviaciones típicas muestrales
al final (1 y 2 indican el material; a y b indican la humedad alta o baja respectivamente).
Todas las muestras son compatibles con hipótesis de normalidad.
carrete nº
M HR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Xmed S
20% 87.8 89.7 91.9 89.6 88.9 89.9 93.4 90.6 89.2 90.3 89.7 89.6 89.9 85.0 89.7 87.0 87.6 91.5 86.3 86.0 88.3 89.3 88.7 88.1 88.4 89.06 1.86
M1
60% 83.8 86.1 83.6 86.5 87.4 85.7 79.4 86.7 92.2 89.8 87.5 86.8 86.3 88.9 91.3 86.0 88.2 88.5 85.6 84.2 90.5 83.0 86.1 92.9 87.1 86.98 3.02
20% 87.4 88.5 90.8 89.6 88.9 88.5 89.7 90.6 90.0 86.6 91.4 89.8 89.4 90.7 89.0 93.5 89.9 89.9 88.1 91.0 88.1 85.0 93.1 88.6 92.0 89.61 1.90
M2
60% 87.6 87.7 90.3 90.1 89.3 88.6 90.6 89.1 88.8 88.3 88.9 87.2 90.6 89.8 90.0 89.6 91.4 90.8 88.9 86.0 88.1 86.7 91.6 87.4 88.2 89.02 1.47
D 1b‐1a 4.0 3.6 8.3 3.1 1.5 4.2 14.0 3.8 ‐3.0 0.5 2.2 2.8 3.6 ‐3.9 ‐1.6 1.0 ‐0.6 3.0 0.7 1.8 ‐2.1 6.2 2.6 ‐4.8 1.3 2.09 3.93
D 2b‐2a ‐0.2 0.8 0.5 ‐0.5 ‐0.3 ‐0.1 ‐0.9 1.5 1.2 ‐1.7 2.5 2.6 ‐1.2 1.0 ‐1.0 4.0 ‐1.5 ‐0.9 ‐0.9 5.0 0.0 ‐1.7 1.5 1.2 3.7 0.59 1.84
D 2a‐1a 3.7 1.5 6.7 3.6 1.9 2.9 11.2 2.4 ‐3.4 ‐1.5 1.4 0.4 4.3 0.9 ‐1.3 3.6 3.2 2.3 3.3 1.8 ‐2.4 3.6 5.5 ‐5.6 1.1 2.04 3.38
D 2b‐1b ‐0.4 ‐1.2 ‐1.1 0.0 0.0 ‐1.4 ‐3.6 0.0 0.9 ‐3.8 1.7 0.2 ‐0.5 5.8 ‐0.7 6.5 2.3 ‐1.6 1.8 5.0 ‐0.2 ‐4.3 4.3 0.5 3.5 0.55 2.82
a) Construye una cota inferior de confianza del 95% para la mejora que ofrece M2 respecto
de M1 en cuanto al valor medio de TR en condiciones de HR alta (60%).
b) ¿Hay evidencias fuertes de que la TR del nuevo material M2 sigue viéndose afectada
por cambios de la HR y, por tanto, las afirmaciones del fabricante sobre estabilidad
son en realidad falsas?
c1) ¿Estos datos corroboran que en condiciones de humedad baja M2 es más resistente
que M1?
c2) Siguiendo con el mismo contraste, calcula ahora la capacidad que tiene el test de nivel
0.01, para detectar una mejora de 175 kg/mm2 del valor medio de TR en condiciones
de HR baja (20%).
Dado el mayor coste de M2, su uso sólo compensa cuando en las condiciones habituales
de HR baja, su TR esperada sea 175 2 superior a la de M1. Determina de
forma aproximada el mínimo tamaño muestral necesario para que el test de nivel 001
detecte esta mejora crítica con una probabilidad de al menos 095.
d) Determina si estos datos proporcionan un argumento fuerte para afirmar que, como
aseguran las especificaciones del fabricante, en ambiente de HR alta (60%) el nuevo
material mejora el valor medio de la tensión de ruptura en más de 12 .
Problema 2 (3 puntos) Se envasan patatas en sacos que se comercializan como de
4. Para contrarrestar las mermas que se produzcan durante el periodo de distribu-
ción, los límites de especificación para el proceso de envasado son de 4020 ± 0030
(nominal±margen de error). Se trabaja con dos variedades de patatas, A y B. El peso en
kg de los sacos de la variedad A sigue una ley normal ( ) = (4010 0010) y el
de los sacos de la variedad B una ley normal ( ) = (4020 0015). Los sacos de
la variedad A se embalan en palés de 120 sacos que se distribuyen al pequeño comer-
cio de alimentación de una gran ciudad. En los palés se incluyen además, de regalo, 5
sacos de la variedad B que se quieren promocionar en ese tipo de establecimientos.
NOTA: En este problema trabajar con una precisión de 4 cifras decimales.
a) Se inspecciona un palé y se elige un saco al azar cuyo peso resulta estar fuera de las
especificaciones. Hallar la probabilidad de que sea de la variedad B.
b) Se inspeccionan 123 palés eligiendo siempre un saco de la variedad A. Si el saco no
cumple las especificaciones se rechaza el palé. Hallar la probabilidad de que sean
rechazados más de 5 palés.
c) Si las especificaciones para el peso total de los palés son 50145 ± 025, hallar la
proporción de palés que quedan fuera de las especificaciones.
d) Si se pudiera intervenir en el proceso de envasado de los sacos de la variedad A modi-
ficando la media y la desviación típica, ¿qué valores deberían tener estos parámetros
para que el proceso de configuración de los palés estuviera centrado (media=nominal) y
el 99% de los palés estuviera dentro de las especificaciones? (El proceso de la variedad
B no se modifica)
Problema 3 (3 puntos) En un artículo de Narula y Wellington en Technometrics en
1977 se presentan datos sobre precios de venta de un determinado artículo y de impuestos
pagados por dicho artículo en 24 almacenes situados en diferentes condados. Se decide
estudiar si existe una relación lineal entre ambas variables para lo que se ajusta un modelo
de regresión lineal simple con "Impuestos” como variable explicativa y "Precio de venta”
como respuesta. Parte de los resultados obtenidos en dicho análisis aparece a continuación.
a) Completar tablas anteriores. ¿Qué porcentaje de la variabilidad del precio de venta es
explicado por los impuestos?
b) Las autoridades de un condado afirmaban que estaban seguras de que un aumento de
2 unidades en los impuestos supondría un aumento menor que 7 unidades en el precio.
Valorar estadísticamente dicha afirmación mediante el p-valor apropiado.
c) Las autoridades de ese mismo condado decidieron establecer un valor de 5 unidades
para los impuestos. Dar una cota superior del 95% para el precio promedio del artículo
en el condado.
d) ¿Qué puedes decir sobre cada una de las hipótesis del modelo? Razonar la respuesta.
¿Existen problemas con alguna de las observaciones presentes en el modelo? Justificar.
Analysis of Variance
Source DF Sum of Sq. M.S. F Val Pr.F 2,5
Problema 1 En este problema es claro que las variables que se refieran a observaciones
del material M1 serán independientes de las que se refieran al material M2 puesto que los
materiales y los carretes correspondientes son distintos. Por otra parte las comparaciones
que se hagan dentro del mismo material para los distintos niveles de humedad serán de
muestras pareadas puesto que se están utilizando dos trozos del mismo carrete a diferentes
niveles de humedad.
a) Teniendo en cuenta lo anterior en este apartado disponemos de dos muestras inde-
pendientes. Para construir la cota sobre la diferencia de medias debemos comprobar
primero si podemos o no suponer varianzas iguales en las dos poblaciones. Denotemos
por 1 y 2 las resistencias medias de los carretes de material M1 y M2 a nivel de
humedad alto y por 1 y 2 las desviaciones típicas correspondientes. El test de
comparación de varianzas es el siguiente:
0 : 1 = 2
1 : 1 6= 2
2 2
El estadístico de contraste es 0 = 1
2 = 302
1472
= 4221. El p-valor de este contraste
2
será 2 (2424 4221) 2 (2424 266) = 002 con lo que rechazamos la hipótesis
nula a los niveles habituales y debemos suponer que 1 6= 2 .
Calculamos ahora la cota inferior del 95% para que 2 −1 se pedía en el apartado.
s
¡ ¢ 21 22
2 − 1 ≥ 2 − 1 − +
1 2
r
3022 1472
= (8902 − 8698) − 1689 + = 090541
25 25
2
2 2
1 + 2
1 2
donde =
2
2
2
2 − 2 = 3566 y 36005 ' 1676 (interpolando).
1 2
1 2
1 +1
+ +1
2
Problema 2 (3 puntos)
P (D/A) = P ((XA > LSE) ∪ (XA < LIE)) = P (XA > LSE) + P (XA < LIE)
La variable aleatoria T es una combinación lineal (suma) de las variables XAi y XBj
anteriores, que son además normales e independientes. Por tanto, tenemos
120
X 5
X
T = XAi + XBj N (µT , σT ) = N (501.3, 0.1146)
i=1 j=1
ya que
120
X 5
X
µT = µA + µB = 120µA + 5µB = 501.3
i=1 j=1
v
u 120 5 q
uX X
2
σT = t σA + σB = 120σA2 + 5σB2 = 0.1146.
2
i=1 j=1
es decir, el 19.24% de los palés quedan fuera de las especificaciones, la inmensa mayorı́a
por pesar menos de lo requerido.
d) Denotemos por (µ0A , σA0 ) y (µ0T , σT0 ) los nuevos valores de los parámetros del proceso
tras la intervención en el mismo destinada a centrarlo y a disminuir la desviación tı́pica.
Para centrar el proceso, tenemos que conseguir que µ0T = 501.45. Una vez centrado,
para que el 99% esté dentro de las especificaciones, tenemos que conseguir que
Utilizando expresiones similares a las del apartado c) para (µ0T , σT0 ) tendrı́amos:
Standard T
Parameter Estimate Error Statistic P-Value
Intercept -0,411999 0,763767 ????????? ??????
Slope ??????? 0,0149345 12,3278 ??????
a) Completa las tablas anteriores dando las acotaciones para los -valores que permiten
las tablas de las que dispones. Justifica estadísticamente si los ingresos de una familia
son útiles para explicar sus gastos en alimentación.
b) Realiza el test 0 : 0 = 0 y explica cómo se debe interpretar el resultado de dicho
test para el ajuste que acabamos de realizar.
c) ¿Podemos afirmar que un incremento en los ingresos de una familia en más de 1000$
implican un incremento en los gastos en alimentación superior a 120$?
d) Se ha usado el paquete Statgraphics para dar una predicción del gasto en ali-
mentación de familias con ingresos anuales de 10000$ obteniéndose:
95,00% 95,00%
Predicted Prediction Limits Confidence Limits
Y Lower Upper Lower Upper
??????? -2,10801 ?????? 0,0959181 ??????
Así pues podemos considerar que en este caso 1 −10005 ' 0005 = 2576 y el tamaño
muestral necesario sería
2 2 25762 · 219
= 0005 2
= = 14532
max 12
con lo que sería necesaria una muestra de 146 elementos.
e) Denotemos por y la proporción de residentes de y respectivamente, que
están a favor del aumento del límte de velocidad. Teniendo en cuenta el enunciado el
contraste que se pide es
0 : − = 0
1 : − 6= 0
Dado que los tamaños muestrales son grandes podemos usar el estadístico 0 =
−
donde b = 111 +
,
2
+2
2
, que en estas condiciones tiene una distribución
(1−) 1 + 1
1 2
aproximadamente normal estandar bajo la hipótesis nula. Haciendo los cáculos te-
nemos que b = 385+316
500+400
= 07789 y que
385 316
b − b 500
− 400
0 = r ³ ´=q ¡ 1 ¢ = −071844.
1
b (1 − b) 11 + 1 07789 (1 − 07789) 500 + 400
2