Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes de Clase Parte 1 PDF
Apuntes de Clase Parte 1 PDF
INDICE
INDICE ................................................................................................................... 2
INTRODUCCIÓN.........................................................................................................................................4
DEFINICIONES...........................................................................................................................................4
ESTIMACIÓN PUNTUAL Y POR INTERVALOS .......................................................................................................6
Página | 2
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Página | 3
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
INTRODUCCIÓN
El entorno en el que se desarrolla nuestra actividad profesional es cada vez más complejo y dinámico;
los clientes siempre demandan mejores productos y es posible satisfacerlos porque la tecnología,
transporte y comunicaciones se han desarrollado grandemente.
No sólo se trata de sobrevivir en el mercado como empresa o como persona en el puesto de trabajo,
sino se trata de tener el ratio de mejora más creciente, el ratio de mejora de mayor pendiente.
El asunto es ¿cómo mejorar?. Este es un tema muy tratado, pero con un enfoque no adecuado. Son los
métodos de mejora planteados desde los conceptos de calidad los que mejores resultados han
obtenido en cuanto a los beneficios logrados después de la mejora, y todos ellos se basan en conceptos
estadísticos. Es difícil explicar que en una organización todos deben tener conocimientos de
estadística, quizás se pueda convertir hasta en una frustración, pero es necesarios que así sea.
DEFINICIONES
Estadística: Es una ciencia que proporciona métodos, técnicas, procedimientos, para: recopilar,
organizar, presentar, analizar datos con el fin de describirlos o de realizar generalizaciones válidas. Es
una ciencia que nos permite organizar datos para obtener información que permita evaluar el
desempeño del proceso que proporcionan los datos y finalmente tomar decisiones.
Pero ¿de dónde nace la estadística? … pues de algo que se comentaba en la introducción: la
variabilidad. Las cosas cambian, no existen en la naturaleza dos entidades con los mismos valores para
una de sus dimensiones.
La estadística, pues, se encarga de recolectar datos de los distintos procesos en donde esta presenta la
variación y analizarlos. Nos interesa que esto se realice con el objetivo de entender la variación,
identificar sus causas y reducirla, como evidencia de mejora del proceso.
Página | 4
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
P OBLACIÓN
Una población está formada por la totalidad de las observaciones en las cuales se tiene cierto interés.
Si el conjunto de estas observaciones es enumerable se denomina población finita. Si no lo es, se
denomina población infinita.
M UESTRA
Una muestra es un subconjunto de observaciones seleccionadas de una población. Para que las
inferencias sean válidas, la muestra debe ser representativa de la población. A menudo resulta
atractivo seleccionar las observaciones más convenientes corno muestra o ejercitar el juicio en la
selección de la muestra.
Es frecuente que estos procedimientos introduzcan un sesgo en la muestra, lo que trae como
consecuencia que el parámetro de interés sea subestimado (o sobrestimado) por la muestra.
Por otra parte, no es posible describir de manera estadística el comportamiento de una muestra de
este tipo. Para evitar estas dificultades, es deseable seleccionar una muestra aleatoria como el
resultado de un mecanismo aleatorio.
E STADÍSTICA
Una estadística es cualquier función de las observaciones contenidas en una muestra aleatoria. Por
ejemplo, si X1 , X2 , … , Xn es una muestra aleatoria de tamaño n, entonces la media muestral X , la
varianza muestral S2 , y la desviación estándar muestral S, son estadísticas.
Puesto que una estadística es una variable aleatoria, ésta tiene una distribución de probabilidad. Se
conoce como distribución de muestreo a la distribución de probabilidad de una estadística.
Página | 5
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
E STIMADORES
Una variable aleatoria se caracteriza o describe mediante su distribución de probabilidad. Tal
distribución es descrita, a su vez, por sus parámetros. Por ejemplo, la media y la varianza 2 de la
distribución normal son sus parámetros, mientras que es el parámetro de la distribución de Poisson.
En el control estadístico de calidad se usa la distribución de probabilidad para describir o modelar
alguna característica de la calidad, como la dimensión crítica de un producto, o la fracción de
defectuosos en un proceso de manufactura. Por lo tanto, interesa hacer inferencias respecto a los
parámetros de distribuciones de probabilidad.
Como suelen desconocerse los parámetros, es necesario disponer de procedimientos para estimarlos a
partir de datos muestrales y para ello se utilizan dos tipos de estimaciones: puntual y por intervalo.
n
- variable aleatoria discreta x E ( x ) xi . p i
i 1
- variable aleatoria continua x E ( x ) x. f ( x).dx
X
1
X i
n i 1
X
S2
p p̂
X1 X2
Página | 6
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
S12
S 22
p1 - p2 p̂1 p̂2
Es probable que un sólo número no sea tan significativo como un intervalo, dentro del cual se espera
encontrar el valor de un parámetro. Una estimación por intervalo de un parámetro es el intervalo
limitado por dos estadísticas, de manera que incluye el verdadero valor del parámetro con cierta
probabilidad. El intervalo estimado recibe el nombre de intervalo de confianza.
L A MEDIA O PROMEDIO
La media, es la suma de los valores observados dividida entre el número de observaciones. Así pues si
se tienen las temperaturas máximas para cada día de la última semana: 15, 16, 18, 17, 15, 16 y 19 °C, el
promedio o la media de temperatura máxima para la semana será:
n
Xi 15 16 18 17 15 16 19
i 1
X 16 .57 C
n 7
L A M EDIANA
Para calcular la mediana de un grupo de datos es necesario ordenarlos primero y luego identificar cuál
es el valor que está en el medio. La mediana será el valor que tiene por debajo de él al 50% de las
observaciones menores y por encima de él está el 50% de las observaciones mayores. En la tabla
Página | 7
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
siguiente tenemos el número de productos vendidos en cada uno de los 24 días, ordenados (no se
olvide que si los datos no están ordenados de menor a mayor, es necesario ordenarlos primero). El
50% de 24 es 12, eso quiere decir que debemos encontrar un número que separe a los 12 primeros
valores de ventas de los 12 últimos. Entre la posición 12 y la posición 13, que corresponden a los
números 25 y 27 respectivamente, se debe encontrar la mediana de la siguiente forma:
25 27
Me 26
2
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Ventas
12 13 13 13 16 17 17 17 19 21 22 25 27 29 29 31 35 36 37 42 42 42 49 52
ordenadas
Si la cantidad de datos fuera impar, por ejemplo la venta de 23 días solamente, el valor de la mediana
es más fácil determinarlo, tal como podemos ver en la siguiente tabla. El valor de la posición 12 tiene
11 datos por debajo y 11 datos por encima por lo que la Me=25.
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Ventas
12 13 13 13 16 17 17 17 19 21 22 25 27 29 29 31 35 36 37 42 42 42 49
ordenadas
L A M ODA
En un conjunto de datos, analizados individualmente, la moda es el valor que más se repite. Si se trata
de datos agrupados en intervalos, podemos considerar que la moda es el centro del intervalo que tiene
mayor frecuencia, es decir, el intervalo con más datos.
Página | 8
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Podría suceder que algunos datos no tengan moda o que tengan más de una moda (ver la tabla
anterior de datos, en donde 13, 17 y 42 se repiten 3 veces cada uno, lo que nos indicaría que hay 3
modas).
La moda no es muy usada para cálculos matemáticos ni de control de procesos, pues es un parámetro
muy básico y poco riguroso en su determinación.
Estas 3 medidas de tendencia central tienen sus ventajas y desventajas, que hacen sean aplicables en
uno u otro caso; por eso las describimos en la siguiente tabla.
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor
representativo, sin embargo por si solas no siempre son representativas por la variabilidad de los
valores de la muestra. Es por eso que se recomienda emplear una medida de tendencia central, en
muchos casos junto con otra medida que nos de una idea del grado de dispersión de los datos.
MEDIDAS DE DISPERSIÒN
Las medidas de dispersión nos dicen hasta que punto las medidas de tendencia central son
representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la
Página | 9
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
dispersión, la variabilidad de los valores de la muestra respecto al valor central. Las medidas de
dispersión empleadas con mayor frecuencia son:
EL RANGO
El rango, es la diferencia entre el máximo valor y el mínimo valor del grupo de datos que se está
analizando. Nos da una idea general de qué tan grande es la variación. Si entre los datos hay valores
fuera de lo normal, extraños (a estos datos se les llama espurios), el rango se va a ver afectado porque
ya sea el máximo valor (o el mínimo) va a ser más grande (más pequeño) de lo normal.
En Excel el rango usa la siguiente fórmula: =Max(Datos)-Min(Datos). Si los datos fueran los de la
temperatura con los que se halló la media, 15, 16, 18, 17, 15, 16 y 19 °C, el rango sería:
R = 19 – 15 = 4
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Ventas
12 13 13 13 16 17 17 17 19 21 22 25 27 29 29 31 35 36 37 42 42 42 49
ordenadas
Una vez que hemos definido los cuartiles, el rango intercuartil marca la amplitud que hay desde el
primer al tercer cuartil, es decir, la amplitud del 50% central de los datos con los que se trabaja.
RIC = Q3 –Q1
Para el ejemplo el RIC es 19. En Excel la función para calcular el cuartil es =Cuartil(Datos, Número de
Cuartil)
Página | 10
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
x
n
2
i x
S2 i 1
n 1
donde n es la cantidad de datos que se usan para calcular el promedio x y xi es cada uno de esos
datos.
Si consideramos los datos de las temperaturas máximas para cada día de la última semana como: 15,
16, 18, 17, 15, 16 y 19 °C, la varianza se calcula primero hallando la diferencia entre cada uno de los
valores y el promedio, luego esa diferencia se eleva al cuadrado y finalmente se suma la tercera
columna.
Temperatura x x i x x i x
2
(°C)
(°C) (°C2)
15 -1.57 2.47
16 -0.57 0.33
18 1.43 2.04
17 0.43 0.18
15 -1.57 2.47
16 -0.57 0.33
19 2.43 5.90
x =16.57 13.71
Al dividir la suma entre el total de datos menos uno se tiene el valor de la varianza
x
n
2
i x
13.71
S2 i 1
2.2857 C 2
n 1 6
Usted puede darse cuenta que las unidades de las temperaturas son grados centígrados °C y que al
elevar al cuadrado, la varianza termina con unidades de °C 2 Para evitar usar dos unidades distintas, en
este ejemplo °C y °C2 se suele trabajar con la desviación estándar, que es la raíz cuadrada positiva de la
Varianza. Para este caso la desviación estándar tiene un valor de s = 1.512.
Ejemplo 2.1
Se hace un estudio en el proceso de envase de fideos en bolsas de 250g. En la línea de envase 1 las
bolsas tienen un peso promedio de 251g y una desviación estándar de 2.1g. Analizando solamente el
valor de la desviación estándar no se puede decir que la variación que representa sea buena o no. La
línea 2 también envasa el mismo producto y el promedio es 251.5g con una desviación estándar de
2.5g. Ahora sí, la desviación estándar nos permite analizar que la variación de los pesos en la línea de
envase 1 es menor que en la línea 2, es decir, la línea 1 trabaja con menos variación.
Página | 11
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Después de hacer una limpieza, mantenimiento y calibración en la línea 2, resulta que se obtiene un
promedio de 250g y una desviación estándar de 1.6g. Nos podemos dar cuenta que ha habido una
mejora en el proceso, los pesos son menos dispersos, independientemente del promedio, que también
se ha corregido.
La línea 1 también es usada para envasar productos de 500g. En promedio las bolsas tienen 502g y la
desviación estándar de los pesos es 3.5g. ¿Qué pasó con el proceso? ¿Se dañó? Si comparamos los
2.1g con los 3.5 podemos concluir que ha aumentado la dispersión; pero ese análisis no está
considerando que es una variación de bolsas pequeñas de fideos contra una variación de bolsas
grandes. Para hacer ese análisis es necesario presentar primero el concepto de coeficiente de
variación.
C OEFICIENTE DE V ARIACIÓN
El coeficiente de variación compara la desviación estándar con la media, por lo que es útil para
comparar la variabilidad de por lo menos dos grupos de datos que tienen promedios razonablemente
distintos.
S
CV
x
En el ejemplo que se discutía anteriormente, comparar las desviaciones estándares de 2.1g y 3.5g no se
justifica cuando éstas son de procesos que tienen promedios muy distintos (prácticamente el doble). Si
se calcula el coeficiente de variación (llamado también desviación estándar relativa RSD) se tiene que:
Línea 1 Línea 1
250g 500g
Entonces, comparativamente, la línea 1 para 250g tiene mayor variación relativa que para 500g. Dicho
de otra forma, la variación para 250g es de 0.84% del promedio, cuando para 500g es solamente el
0.7% (redondeando).
Página | 12
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Para una variable aleatoria, por ejemplo, el número de solicitudes de crédito inadecuadamente
completadas, el peso de una bolsa de azúcar o el tiempo de atención de una llamada telefónica, que
puede tomar un valor numérico, es necesario en muchos casos determinar la probabilidad de que
tome un valor específico. Para ello se usan las distribuciones de probabilidad.
La utilidad de las distribuciones para nuestro curso están relacionadas con el cálculo de probabilidades
y estadísticos para los intervalos de confianza y las pruebas de hipótesis, así como con la identificación
de la desviación estándar asociada a la distribución de probabilidad para que se pueda usar en la
determinación de la incertidumbre. Pero antes es necesario revisar algunos conceptos relacionados
con las variables aleatorias.
La variable aleatoria generalmente se representa con una letra mayúscula (X, Y, etc.) y el valor que
toma la variable se denota con la respectiva letra minúscula. Por ejemplo, si lanzamos un dado y
observamos que el resultado obtenido es 5, entonces en este caso:
: 1, 2, 3, 4, 5, 6. (espacio muestral)
Estas variables pueden ser discretas, cuando el rango es un conjunto finito o infinito numerable, o
continuas, cuando el rango es un conjunto infinito no numerable de valores.
Página | 13
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
f ( x) 0 para todo x
f ( x).dx 1
b
P(a x b) f ( x).dx
a
En los dos siguientes puntos se presentan características y propiedades de los valores esperados y
desviaciones estándar. Esos temas son solamente informativos, no es necesario que el nivel de
entendimiento de estos temas sea alto.
n
variable aleatoria discreta x E ( x ) xi . pi
Valor i 1
esperado
variable aleatoria continua x E ( x ) x. f ( x).dx
n
variable aleatoria discreta x2 ( xi x ) 2 . pi
i 1
Varianza
variable aleatoria continua x2
( x ) 2 . f ( x).dx
n
variable aleatoria discreta x (x
i 1
i x ) 2 . pi
Desviación
estándar
variable aleatoria continua x
( x ) 2 . f ( x).dx
DISTRIBUCIÓN TRIANGULAR
Existen situaciones en las cuales es necesario asumir una distribución de probabilidad en función de
algunos parámetros, como el rango y el valor de mayor probabilidad o moda. En estos casos se puede
pensar en una distribución que tenga la forma de un triangulo, cuya área, como en todos los casos, sea
igual a 1
Página | 14
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
0 ,x a
2 x a
, a x c
b a b c
f ( x)
2b x , c x b
b a b c
0 ,x b
Un caso particular de esta distribución y el que más se aplica para el cálculo de la Incertidumbre de las
Mediciones, es cuando la moda c es el valor central entre a y b (c = (a+b)/2).
Varianza:
( a b) 2
2x
24
Ejemplo 3.1
Se presume que la medida obtenida con un instrumento analógico, ya sea una escala como la de una
pipeta o un reloj, sigue una distribución triangular. Por ejemplo, en la figura adjunta puede observarse
que la medida no es 5 ni 6, es cualquier valor entre esas dos marcas. Se presume que la media y la
varianza de esa medida es:
56 (5 6) 2
x E ( x) 5.5 2x 0.04167
2 24
7
Página | 15
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
4cc
La función de densidad de probabilidad para una distribución Uniforme entre a y b esta dada por:
1
f ( x)
(b a)
ab
Media: x E ( x)
2
( a b) 2
Varianza: 2x
12
Ejemplo 3.2
Se presume que la medida obtenida con un instrumento digital, visualizada en una pantalla como la de
una balanza, sigue una distribución rectangular. Por ejemplo, en la figura adjunta puede observarse
que la medida marca 45.3g, pero cualquier peso entre 45.25 y 45.34 (por practicidad se asume 45.35)
va a tener la misma indicación en la pantalla. Se presume que la media y la varianza de esa medida es:
Página | 16
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
DISTRIBUCIÓN NORMAL
La mayoría de procesos industriales y de la naturaleza siguen una distribución normal, que está
caracterizada por tener una media o promedio y una desviación estándar, es decir una medida de
tendencia central y una de dispersión. Por ejemplo, una variable aleatoria como el largo de una antena
de celular seguirá una distribución normal con media =75mm y desviación estándar =0.005mm. Eso
quiere decir que algunas antenas de celular medirán 75mm y otras más o menos. Si se obtiene una
muestra de antenas se espera que el promedio sea 75 y la desviación estándar 0.005mm.
La función de densidad de probabilidad para una distribución normal está dada por:
1 x
1 ·( )2
f ( x) ·e 2
2
Se dice que la variable aleatoria X sigue una distribución normal con parámetros y y se denota X ~
N (, 2). Pero en este caso no se puede calcular dicha integral a no ser que se usen métodos
numéricos. Por eso se calculan las probabilidades con tablas.
La forma de una distribución normal es:
Para hacer el cálculo de probabilidades y usar la tabla que se muestra en la página siguiente, es
necesario realizar una estandarización. De lo que se trata es de transformar los datos de una
Página | 17
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
distribución normal cualquiera a una distribución normal estándar con media =0 y =1 usando la
fórmula
x
Z
Ejemplo 3.3
Por ejemplo, si se ha tomado una muestra de 100 pesos de bolsas de azúcar y se sabe que el promedio
del peso es 500g y la desviación estándar 2.1g, se puede asumir que los pesos X siguen una distribución
normal con =500 y =2.1. La variable X se puede transformar en otra variable llamada Z usando la
ecuación anterior. Esta nueva variable Z sigue una distribución normal estándar en donde =0 y =1 y
sus probabilidades se pueden calcular a partir de la siguiente tabla:
Página | 18
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.5 0.000233 0.000224 0.000216 0.000208 0.000200 0.000193 0.000185 0.000179 0.000172 0.000165
-3.4 0.000337 0.000325 0.000313 0.000302 0.000291 0.000280 0.000270 0.000260 0.000251 0.000242
-3.3 0.000483 0.000467 0.000450 0.000434 0.000419 0.000404 0.000390 0.000376 0.000362 0.000350
-3.2 0.000687 0.000664 0.000641 0.000619 0.000598 0.000577 0.000557 0.000538 0.000519 0.000501
-3.1 0.000968 0.000936 0.000904 0.000874 0.000845 0.000816 0.000789 0.000762 0.000736 0.000711
-3.0 0.001350 0.001306 0.001264 0.001223 0.001183 0.001144 0.001107 0.001070 0.001035 0.001001
-2.9 0.001866 0.001807 0.001750 0.001695 0.001641 0.001589 0.001538 0.001489 0.001441 0.001395
-2.8 0.002555 0.002477 0.002401 0.002327 0.002256 0.002186 0.002118 0.002052 0.001988 0.001926
-2.7 0.003467 0.003364 0.003264 0.003167 0.003072 0.002980 0.002890 0.002803 0.002718 0.002635
-2.6 0.004661 0.004527 0.004397 0.004269 0.004145 0.004025 0.003907 0.003793 0.003681 0.003573
-2.5 0.006210 0.006037 0.005868 0.005703 0.005543 0.005386 0.005234 0.005085 0.004940 0.004799
-2.4 0.008198 0.007976 0.007760 0.007549 0.007344 0.007143 0.006947 0.006756 0.006569 0.006387
-2.3 0.010724 0.010444 0.010170 0.009903 0.009642 0.009387 0.009137 0.008894 0.008656 0.008424
-2.2 0.013903 0.013553 0.013209 0.012874 0.012545 0.012224 0.011911 0.011604 0.011304 0.011011
-2.1 0.017864 0.017429 0.017003 0.016586 0.016177 0.015778 0.015386 0.015003 0.014629 0.014262
-2.0 0.022750 0.022216 0.021692 0.021178 0.020675 0.020182 0.019699 0.019226 0.018763 0.018309
-1.9 0.028716 0.028067 0.027429 0.026803 0.026190 0.025588 0.024998 0.024419 0.023852 0.023295
-1.8 0.035930 0.035148 0.034379 0.033625 0.032884 0.032157 0.031443 0.030742 0.030054 0.029379
-1.7 0.044565 0.043633 0.042716 0.041815 0.040929 0.040059 0.039204 0.038364 0.037538 0.036727
-1.6 0.054799 0.053699 0.052616 0.051551 0.050503 0.049471 0.048457 0.047460 0.046479 0.045514
-1.5 0.066807 0.065522 0.064256 0.063008 0.061780 0.060571 0.059380 0.058208 0.057053 0.055917
-1.4 0.080757 0.079270 0.077804 0.076359 0.074934 0.073529 0.072145 0.070781 0.069437 0.068112
-1.3 0.096801 0.095098 0.093418 0.091759 0.090123 0.088508 0.086915 0.085344 0.083793 0.082264
-1.2 0.115070 0.113140 0.111233 0.109349 0.107488 0.105650 0.103835 0.102042 0.100273 0.098525
-1.1 0.135666 0.133500 0.131357 0.129238 0.127143 0.125072 0.123024 0.121001 0.119000 0.117023
-1.0 0.158655 0.156248 0.153864 0.151505 0.149170 0.146859 0.144572 0.142310 0.140071 0.137857
-0.9 0.184060 0.181411 0.178786 0.176186 0.173609 0.171056 0.168528 0.166023 0.163543 0.161087
-0.8 0.211855 0.208970 0.206108 0.203269 0.200454 0.197662 0.194894 0.192150 0.189430 0.186733
-0.7 0.241964 0.238852 0.235762 0.232695 0.229650 0.226627 0.223627 0.220650 0.217695 0.214764
-0.6 0.274253 0.270931 0.267629 0.264347 0.261086 0.257846 0.254627 0.251429 0.248252 0.245097
-0.5 0.308538 0.305026 0.301532 0.298056 0.294598 0.291160 0.287740 0.284339 0.280957 0.277595
-0.4 0.344578 0.340903 0.337243 0.333598 0.329969 0.326355 0.322758 0.319178 0.315614 0.312067
-0.3 0.382089 0.378281 0.374484 0.370700 0.366928 0.363169 0.359424 0.355691 0.351973 0.348268
-0.2 0.420740 0.416834 0.412936 0.409046 0.405165 0.401294 0.397432 0.393580 0.389739 0.385908
-0.1 0.460172 0.456205 0.452242 0.448283 0.444330 0.440382 0.436441 0.432505 0.428576 0.424655
0.0 0.500000 0.496011 0.492022 0.488033 0.484047 0.480061 0.476078 0.472097 0.468119 0.464144
0.1 0.539828 0.543795 0.547758 0.551717 0.555670 0.559618 0.563559 0.567495 0.571424 0.575345
0.2 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092
0.3 0.617911 0.621719 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732
0.4 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933
0.5 0.691462 0.694974 0.698468 0.701944 0.705402 0.708840 0.712260 0.715661 0.719043 0.722405
0.6 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.754903
0.7 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.785236
0.8 0.788145 0.791030 0.793892 0.796731 0.799546 0.802338 0.805106 0.807850 0.810570 0.813267
0.9 0.815940 0.818589 0.821214 0.823814 0.826391 0.828944 0.831472 0.833977 0.836457 0.838913
1.0 0.841345 0.843752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.862143
1.1 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.878999 0.881000 0.882977
1.2 0.884930 0.886860 0.888767 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.901475
1.3 0.903199 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914656 0.916207 0.917736
1.4 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888
1.5 0.933193 0.934478 0.935744 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083
1.6 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486
1.7 0.955435 0.956367 0.957284 0.958185 0.959071 0.959941 0.960796 0.961636 0.962462 0.963273
1.8 0.964070 0.964852 0.965621 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621
1.9 0.971284 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705
2.0 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691
2.1 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.985738
2.2 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.988989
2.3 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.991576
2.4 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.993613
2.5 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.995201
2.6 0.995339 0.995473 0.995603 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.996427
2.7 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.997365
2.8 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.998074
2.9 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605
3.0 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999
3.1 0.999032 0.999064 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289
3.2 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499
3.3 0.999517 0.999533 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999650
3.4 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758
Siguiendo con el ejemplo, si se desea saber la probabilidad de que una bolsa de azúcar pese menos de
495g, entonces debemos calcular P(X<495). Si X se transforma a Z, entonces:
Página | 19
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
X 495 500
P( X 495) P PZ 2.38
2.1
y en la gráfica es el área marcada en negro. Para buscar esa probabilidad se usa la tabla anterior
buscando el valor –2.3 en la primera columna y moviéndose horizontalmente hasta encontrar la
columna que corresponda a un encabezado de 0.08. El valor es 0.00866, lo que quiere decir que cada
1000 bolsas de azúcar en promedio 8.66 bolsas tendrán un peso menor a 495g
Si se quiere calcular la probabilidad que una bolsa pese más de 503g, entonces:
X 503 500
P( X 503) P PZ 1.43 1 PZ 1.43 1 0.92364 0.07636
2.1
Tener en cuenta que la tabla sólo permite calcular probabilidades del tipo P(X < x) y si fuera necesario
calcular la P(X > x) entonces se cambia a P(X > x) = 1 - P(X < x).
Podemos decir que bolsas se azúcar con pesos que están por encima de 503g y por debajo de 495g son
productos no conformes con las especificaciones. Entonces, ¿cuál es la probabilidad de que salga un
producto no conforme con las especificaciones? (0.00866+0.07636=0.08502) ¿Cuál la probabilidad de
que salga un producto conforme? (1-0.08502=0.91498).
Una propiedad importante de la distribución normal es que si X 1, X2, X3, . . . , Xk son k variables
aleatorias independientes, tales que Xi ~ N(i, i), para cada i = 1, 2, 3, . . ., k, entonces, la variable
Página | 20
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
aleatoria Y = c1X1 + c2X2 + c3X3 + . . . + ckXk, (donde c1, c2, c3, . . . ck son constantes) está distribuida
normalmente con:
Esto permite estudiar, por ejemplo, el caso en que el peso de una caja (cartón solamente) sigue una
distribución normal con =150g y =1.3g y tiene como contenido 12 frascos de perfumes. El peso de
cada frasco sigue una distribución normal con =250g y =2.6g. Entonces, el peso de la caja llena sigue
esto se puede determinar las probabilidades para la caja llena de 12 frascos considerando estos dos
últimos parámetros.
DISTRIBUCIÓN DE POISSON
La distribución de Poisson, se aplica a varios fenómenos discretos de la naturaleza (esto es, aquellos
fenómenos que ocurren 0, 1, 2, 3, ... veces durante un periodo definido de tiempo o en un área
determinada) cuando la probabilidad de ocurrencia del fenómeno es constante en el tiempo o el
espacio. Ejemplos de estos eventos que pueden ser modelados por la distribución de Poisson incluyen:
La función de densidad de probabilidad para una distribución Poisson está dada por:
e x
f ( x)
x!
Se dice que la variable aleatoria X sigue una distribución normal con parámetro λ y se denota X ~
Poisson (λ). Dado que esta es una variable aleatoria discreta X puede tomar valores de 0,1,2,3.... y la
probabilidad acumulada hasta un número dado se calcula como la sumatoria de todos valores enteros
menores evaluados en la función de densidad. Así entonces por ejemplo la probabilidad P(X < 3) si X es
una variable aleatoria Poisson será:
P( X 3) P( X 0) P( X 1) P( X 2)
OTRAS DISTRIBUCIONES
En la siguiente tabla se muestran otras importantes distribuciones de probabilidad.
Página | 21
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Página | 22
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Página | 23
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
EJERCICIOS PROPUESTOS
Ejercicio 1
Una empresa de fabricación de productos cerámicos dispone de tres centros de producción. En el
centro A, el más grande y moderno, se hace un estudio de los m² de azulejo producidos al mes durante
el año pasado, obteniéndose una media de producción mensual de 250 000 m² , con una desviación
típica de 15.000 m² . Se sabe que el centro B, por tener maquinaria más anticuada que A, produce
cada mes un tercio de la producción de A, y que el centro C, por tener un horno menos que B, produce
cada mes 25.000 m² menos que B ¿Cual es la media y la varianza de la producción mensual de C?
Ejercicio 2
Un organismo de control ambiental, con motivos de denuncias reiteradas presentadas por vecinos de
una fábrica, decide investigar el ruido que producen camiones pesados que circulan por una
determinada calle. Para ello toma una muestra de 30 camiones registrando sus respectivos niveles de
ruido en decibeles. Los resultados obtenidos fueron los siguientes:
Ejercicio 3
Se realizó una investigación sobre la contaminación ambiental. Para ello se estudió la acidez del agua
de lluvia caída en 40 localidades del país. Registrándose los siguientes niveles de pH:( pH pura 5,7 )
Página | 24
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
INTERVALOS DE CONFIANZA
En muchas situaciones, una estimación puntual no proporciona información suficiente sobre un parámetro y
resulta más significativo la estimación de un intervalo, dentro del cual se espera encontrar el valor de dicho
parámetro. El intervalo estimado recibe el nombre de Intervalo de Confianza.
Ejemplo 4.1:
Se está analizando la resistencia a la ruptura de la fibra textil usada en la fabricación de cortinas. La
experiencia pasada indica que la desviación estándar de la resistencia a la ruptura es 2psi. Se prueba
una muestra de 9 observaciones y se encuentra que la resistencia a la ruptura promedio es 98psi.
Encuentre el intervalo de confianza de dos colas con una confianza del 95%.
Datos: Solución:
X = 98
1- = 0.975 por tabla: Z 1 2 = 1.96
=2 2
n =9
1- = 95% Aplicar fórmula:
= 5% 98 - (1.96
2
) 98 + (1.96
2
)
9 9
96.693 99.307
Página | 25
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
2
z
n 1 / 2
E
Ejemplo 4.2
Si se desea reducir a la mitad el intervalo hallado en el ejemplo anterior, ¿cuántas muestras adicionales
se requieren?
Datos: Solución:
X = 98 2
E = 1.96 = 1.307
=2 9
n =9
1- = 95% 1.307
E nuevo = = 0.653
= 5% 2
Z1 2
= 1.96
1.96 2
2
nnuevo = = 35.982 = 36
0.653
Página | 26
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Ejemplo 4.3
Para el ejemplo anterior, suponga que no se conoce la desviación estándar y que el valor 2psi fue
hallado con una muestra de tamaño 9.
Datos: Solución:
Ejemplo 4.4
Se tienen los siguientes datos referentes a una muestra de tamaño 10:
n 1 2 3 4 5 6 7 8 9 10
Valor 55 57 56 57 56 55 57 58 55 56
Donde se obtiene una media de valor 56.2. Se solicita hallar el intervalo de confianza con =5%.
Solución:
Datos:
x x
n
2
X = 56.2 i
S 2 i 1
1.0667 t1n (1 / 2 ) = 2.262
n = 10 n 1
1- = 95%
= 5%
1.033 1.033
56.2 - t n 1(1 / 2) 56.2 t n 1(1 / 2)
10 10
Página | 27
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Ejemplo 4.5
Para el ejemplo anterior, se desea obtener un error no mayor a 0.6. ¿Cuál será el tamaño de muestra
necesario para cumplir con la condición anterior?
Datos:
Solución:
s
X = 56.2 Eactual = t1n (1 / 2 ) = 0.739, al ser mayor que el
n
n = 10 Edeseado se aplica la siguiente fórmula:
1- = 95%
= 5%
nnuevo = ( t n 1(1 / 2 ) * s /Edeseado) 2
S2 = 1.0667
Para resolver este problema es necesario hacer un proceso iterativo. Se debe notar que para el cálculo
del n nuevo el valor t y la desviación estándar muestral dependen de la muestra, dependen de n. Es
decir, no se puede despejar n de la fórmula del Error E.
Es por ello que basándonos en un tamaño de muestra inicial, en este caso 10, calculamos la desviación
estándar y que la muestra que se necesita es de 16, es decir los 10 datos y su desviación estándar no
permiten lograr el error deseado. Es necesario tomar 6 datos adicionales (o 16 nuevas datos), además
se debe hallar la desviación estándar de estos 16 datos, así como el valor del t1-α/2 respectivo. En esta
oportunidad escogeremos realizar una muestra nueva, cuyos valores obtenidos son:
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
valor 55 56 57 57 56 55 55 56 57 56 56 57 55 55 57 56
X = 56.077
S2 = 0.794 Enuevo = 0.36 < Edeseado =0.6
t (1 / 2 ) =2.059
Página | 28
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
12 22 12 22
( x1 - x 2 ) Z 1 / 2 1 - 2 x1 - x 2 z1 / 2
n1 n2 n1 n2
El nivel de confianza (1 - ) es exacto cuando las poblaciones son normales. Para poblaciones que no lo
son, el nivel de confianza es aproximadamente válido para tamaños grandes de muestras.
_ _ 1 1 _ _ 1 1
( x1 - x 2 ) - t n1 n2 -2, 1 / 2 S p2 - ( x1 - x 2 ) t n1 n2 -2, 1 / 2 S p2
n1 n2 1 2
n1 n2
(n1 - 1) S12 (n2 - 1) S 22
S p2
n1 n2 - 2
b) Si no es razonable suponer que las varianzas son iguales, entonces el intervalo de confianza es:
_ _ s2 s2 _ _ s12 s 22
( x1 - x 2 ) - t v , 1 / 2 1 2 - ( x1 - x2 ) t v , 1 / 2
n1 n2 n1 n2
1 2
Página | 29
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
2
S12 S 22
v 12
n n2
2
2
S12 S 22
n1 n2
n1 1 n2 1
donde son los grados de libertad
Ejemplo 4.5
Se investiga el diámetro de las varillas de acero fabricadas en dos máquinas de extrusión diferentes. Se
seleccionan dos muestras aleatorias e tamaño n1=15 y n2=17, las medias muestrales son 8.73 y
8.68mm, y las varianzas muestrales son 0.32 y 0.40mm2. Construya el intervalo de confianza para la
diferencia asumiendo que las varianzas son iguales y luego asumiendo que son diferentes. ¿Los
intervalos incluyen al cero?
Varianzas iguales
Datos: Solución:
1
_ _ 1 1 _ _ 1 1
= 15 ( x1 - x2 ) - tn1n2 -2, 1 / 2 S p2 - ( x1 - x2 ) tn1n2 -2, 1 / 2 S p2
n1 n2 1 2
n1 n2
2 = 17
= 5%
Varianzas diferentes
Datos: Solución:
2
X1 = 8.73 0.32 0.40
t v , 1 / 2
v
15 17 = 32 = 2.037
X2 = 8.68 2 2
2
0.32 0.40
s12 = 0.32 15 17
15 1 17 1
s 22 = 0.40
1 = 15 _ _ s2 s2 _ _
( x1 - x2 ) - t v , 1 / 2 1 2 - ( x1 - x2 ) t v , 1 / 2
s12 s 22
n1 n2 n1 n2
1 2
2 = 17
= 5%
Página | 30
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
PRUEBA DE HIPÓTESIS
Para realizar pruebas de hipótesis deberemos hacer alguna inferencia o suposición elaborada sobre
algún parámetro de la población. Esta inferencia será nuestra hipótesis. Después tomaremos una
muestra para ver si la hipótesis podría ser correcta. La hipótesis que contrastamos se llama hipótesis
nula (Ho). La hipótesis nula se contrasta con la hipótesis alternativa (H1)
Después, a partir de los resultados obtenidos en nuestra muestra, o bien rechazamos la hipótesis nula
a favor de la alternativa, o bien rechazamos la hipótesis nula y suponemos que nuestra estimación
inicial del parámetro poblacional podría ser correcto.
TIPOS DE ERRORES
Aceptar H0 Rechazar H0
No hay error
H0 es falsa ErrorII
(1-)
Error Tipo I
Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I viene a ser
la probabilidad de rechazar la H0 verdadera.
P(Error tipo I)
Error Tipo II
Ocurre cuando se acepta una hipótesis H 0 que es falsa, la probabilidad de error tipo II es la probabilidad
de aceptar una H0 que es falsa.
Página | 31
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.
Potencia de prueba o Poder de Prueba
Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.
Potencia de la prueba = 1 -
Como el valor de depende del valor del parámetro la potencia de prueba tampoco pude ser fijado,
sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno de ellos hallar el
valor de la potencia de prueba. La curva que se genera se conoce como CURVA DE POTENCIA.
recibe el nombre de prueba bilateral, debido a que es importante detectar diferencias a partir del valor
hipotético de la media que se encuentren en cualquier lado de 0 . En una prueba de este tipo, la
región crítica se separa en dos partes, con (usualmente) la misma probabilidad en cada cola de la
distribución de la estadística de prueba.
Si la hipótesis alternativa es H1: > 0, la región crítica debe encontrarse en la cola superior de la
distribución del estadístico de prueba, mientras que si la hipótesis alternativa es H 1: < 0, la región
crítica debe encontrarse en la cola inferior de la distribución. En consecuencia, en ocasiones estas
pruebas se conocen como pruebas de una cola.
Página | 32
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
PROCEDIMIENTO GENERAL
1. Identificar el parámetro de interés
: parámetros ( , 2 , P, 1 - 2 , P1 - P2 , 2 / 22 )
1
2. Planteo de la hipótesis.
H 0 : 0 H 0 : 0 H 0 : 0
H1 : 0 H1 : 0 H1 : 0
4. Pruebas estadísticas: dependiendo del parámetro a probar se usa un estadístico definido en la figura
de la pàgina siguiente.
5. Pruebas estadísticas
Suposiciones para: ( , 2 , 1 2 , 2 / 22 )
1
Suposiciones para: ( p, p1 p2 )
Muestra(s) tomada(s) al azar.
Muestras grandes.
Página | 33
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Hipótesis
H 0 : 0 vs H1 : 0 Z0 Z
1
H1 : 0
2
2
conocido Z 0 Z 1
H1 : 0 Z 0 Z1
H 0 : 0 vs H1 : 0 T0 t
1 , n 1
2
desconocido H1 : 0 T0 t1 ,n 1
2
H 0 : 1 2 vs H 1 : 1 2 Z0 Z
1
y 2 2
conocidos H 1 : 1 2 2
1 2 Z 0 Z 1
H 1 : 1 2
Z 0 Z1
H 0 : 1 2 vs H 1 : 1 2 T0 t
1 , n1 n2 2
desconocidos
2 2 H 1 : 1 2 T0 t
2
1 2 1 , n1n2 2
H 1 : 1 2 T0 t1 ,n1n2 2
H 0 : 1 2 vs H 1 : 1 2 T0 t
1 , df
desconocidos
2 2
H 1 : 1 2 2
1 2
T0 t1 ,df
H 1 : 1 2
T0 t1 ,df
02 2 ,n 1
0
H 1 : 12 22
F0 F ,n1 1,n2 1
H 0 : p p0 H 1 : p p0 Z0 Z
1
H 1 : p p0 2
Z 0 Z 1
H 1 : p p0
Z 0 Z1
H 0 : p1 p 2 H 1 : p1 p 2 Z0 Z
1
H 1 : p1 p 2 2
Z 0 Z 1
H 1 : p1 p 2
Z 0 Z1
Página | 34
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
6. Regiones críticas
Cola derecha: Cuando H1 contiene ">"
8. Resultados y conclusiones.
Página | 35
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Ejemplo 5.1
Las siguientes mediciones se registraron para el tiempo de secado, en horas, de cierta marca de pintura
de látex:
Suponga que las mediciones representan una muestra aleatoria de una población normal, pruebe la
hipótesis que el tiempo de secado es 4.5 horas.
Solución:
Al tratarse de varianzas desconocidas se emplea el siguiente
Hipótesis estadístico de prueba
De los datos se obtiene: Este valor debe ser comparado con t 2.145
1 , n 1
2
n 15
X 3.787 Como 2.85 2.145 se rechaza la hipótesis nula, es
decir, el tiempo promedio de secado es diferente a 4.5 horas.
S 0.971
La salida del MINITAB es la siguiente:
Página | 36
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Ahora ya sabemos que la media no es igual a 4.5, pero ¿es ésta mayor o menor a este valor?, para
responder a esta pregunta haremos una prueba unilateral.
H0: = 4.5
X 0 3.787 4.5
H1: < 4.5 t 2.85
S/ n 0.971 / 15
n 15
X 3.787 Como 2.85 1.761 se rechaza la hipótesis nula, es decir,
el tiempo promedio de secado es inferior a 4.5 horas.
S 0.971
Ejemplo 5.2
De 100 momentos distintos, seleccionados al azar durante una semana de trabajo, se observa que un
operador de una máquina realiza trabajo productivo en 80 de estas observaciones. Pruebe la
hipótesis de que la proporción real que un operador realiza trabajo productivo es 0.90. Use = 0.05.
Solución:
H0: = 0.9
1 0.9 0.1
H1: 0.9 0.03
n 100
Página | 37
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Ejemplo 5.3
La American Car (AC) lleva a cabo un experimento para rebatir la aseveración de que los automóviles
extranjeros dan más millas por galón que los autos americanos. Nicole Johnson, presidenta de la AC,
piensa que tanto los promedios y las varianzas en el millaje son los mismos, para esto se lleva a cabo
un estudio con 16 vehículos. Los resultados en millas por galón son:
Americano Extranjero
34.2 35.3
32.5 32.6
37.1 37.1
34.1 34.1
31.9 31.9
31.3 36.4
32.0 35.7
33.3 33.3
Pruebe las hipótesis respectivas con un nivel de significación de = 0.05. (Asuma poblaciones
normales)
Americano Extranjero
Media 33.30 34.55
Varianza 3.45 3.49
Observaciones 8 8
Grados de libertad 7 7
F 0.9910
P(F<=f) una cola 0.4954
Valor crítico para F (una cola) 0.2641
Página | 38
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Americano Extranjero
Media 33.30 34.55
Varianza 3.45 3.49
Observaciones 8 8
Varianza agrupada 3.47
Diferencia hipotética de las medias 0
Grados de libertad 14
Estadístico t -1.3421
P(T<=t) una cola 0.1005
Valor crítico de t (una cola) 1.7613
P(T<=t) dos colas 0.2009
Valor crítico de t (dos colas) 2.1448
Ejemplo 5.4
El departamento de ingeniería civil del Instituto Politécnico Y Universidad Estatal de Virginia compara
una técnica de ensayo modificada (M-5 hr) para recuperar coliformes fecales en charcos de agua de
lluvia en un área urbana con la técnica del número más probable (MPN). Se colecta un total de 12
muestras de charcos y se analizan con las dos técnicas. Los conteos de coliformes por 100 mililitros se
registran en la siguiente tabla:
Página | 39
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
1 2300 2010
2 1200 930
3 450 400
4 210 436
5 270 4100
6 450 2090
7 154 219
8 179 169
9 192 194
10 230 174
11 340 274
12 194 183
Existen diferencias significativas en los conteos medios de coliformes fecales entre las técnicas M-5 hr y
MPN. Suponga que las diferencias de conteos se distribuyen de forma aproximadamente normal. Use
= 0.05.
Página | 40
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
EJERCICIOS PROPUESTOS
Ejercicio 1
Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra de piezas cuyos
diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01, 1.03 centímetros. Con un nivel de
significancia de .01. ¿Pruebe la hipótesis de que el diámetro promedio de piezas de esta máquina es
de 1.009?
Ejercicio 2
Una muestra aleatoria de 8 cigarrillos de una marca determinada tiene un contenido promedio de
nicotina de 2.6 miligramos y una desviación estándar de 0.9 miligramos. ¿Existe suficiente evidencia
estadística para decir que el contenido promedio real de nicotina de esta marca de cigarros en
particular es de 2.4 miligramos? Con = .05.
Ejercicio 3
Se toma una muestra aleatoria de 12 agujas de tejer en un estudio de la dureza Rockwell de la cabeza
de las agujas. Se realizan las mediciones de la dureza para cada una de las 12 piezas, de lo que se
obtiene un valor promedio 48.50 con una desviación estándar de 1.5. Suponiendo que las mediciones
están normalmente distribuidas, pruebe la hipótesis de que la dureza Rockwell promedio es menor
48.705. Con = .05.
Ejercicio 4
Se compararon dos marcas de cigarrillos, C y D , respecto a su contenido de nicotina en miligramos,
dieron los siguientes resultados.
Marca C Marca D
= 40 = 50
= 14.3 = 15.7
= 2.9 = 3.8
Con un nivel de significancia de 0.01. Existe suficiente evidencia estadística para decir que hay
diferencia entre las medias de contenido de nicotina para las dos marcas de cigarrillos.
Ejercicio 5
Se asume que se tienen la longitud del radio de 10 piezas antes y después de habérseles aplicado un
tratamiento térmico, pruébese con un nivel de significancia de o.10, ¿ existe evidencia para decir que
la media de la diferencia en los puntaje antes y después del tratamiento es diferente?
Antes 9.0 7.3 6.7 5.3 8.7 6.3 7.9 7.3 8.0 8.5
Después 9.2 8.2 8.5 4.9 8.9 5.8 8.2 7.8 9.5 8.0
Página | 41
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
ANÁLISIS DE VARIANZA
Donde.
n k k n k n
yi.
j 1
yij , y. j
i 1
yij , y..
i 1
yi.
j 1
y. j y
i 1 j 1
ij
Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales,
haremos varias suposiciones. Con más precisión, supondremos estar trabajando con poblaciones
normales que tienen varianzas iguales.
Si i denota la media de las i-ésima población y 2 indica la varianza común de las k poblaciones,
podemos expresar cada observación y ij como i más el valor de un componente aleatorio; es decir
podemos escribir
Página | 42
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
k
tratamiento; de ahí que
i 1
i 0 . Con estos nuevos parámetros, podemos escribir la ecuación
donde:
Grados de
Fuente de Suma de cuadrados Cuadrado medio Fc Ft
libertad
variación
k
CM ( Tr ) F(K-1,K(n-
Tratamientos K–1
y 2
i.
y..2 SS (Tr )
F
CME 1),)
SS (Tr ) i 1
CM (Tr )
n kn K 1
K(n – 1) SSE SST SS(Tr) SSE
Error CME
K ( n 1)
k n
y..2
Total nk - 1
SST yi 1 j 1
2
ij
kn
Página | 43
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Ejemplo 6.1
Las cifras siguientes son el número de errores realizados en cinco días consecutivos de trabajo por
cuatro técnicos de un laboratorio fotográfico:
Prueba con un nivel de significancia = 0.05 si las diferencias entre las cuatro muestras pueden
atribuirse al azar.
Solución.
Tabla Resumen
Grupos Cuenta Suma Promedio Varianza
Técnico I 5 49 9.8 9.2
Técnico II 5 59 11.8 5.2
Técnico III 5 55 11 8.5
Técnico IV 5 50 10 2.5
Los totales para las cuatro muestras son, respectivamente, 49, 59, 55, y 50, el gran total es 213, y los
cálculos con que se obtienen las sumas necesarias son los siguientes:
4 5
y
i 1 j 1
2
ij
( 213) 2
2268.45
nk (5)( 4)
Página | 44
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Puesto que el valor obtenido para F es menor que 3.24, que corresponde al valor F0.05 con 3 y 16
grados de libertad, la hipótesis nula no puede ser rechazada con nivel de significación de 0.05;
concluimos que no se puede rechazar la hipótesis de que los técnicos están logrando resultados
consistentes.
Analysis of Variance
Source DF SS MS F P
Factor 3 12.95 4.32 0.68 0.577
Error 16 101.60 6.35
Total 19 114.55
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ---+---------+---------+---------+---
Técnico 5 9.800 3.033 (-----------*-----------)
Técnico 5 11.800 2.280 (-----------*-----------)
Técnico 5 11.000 2.915 (-----------*-----------)
Técnico 5 10.000 1.581 (-----------*-----------)
---+---------+---------+---------+---
Pooled StDev = 2.520 8.0 10.0 12.0 14.0
Página | 45
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Tratamientos
Totales
Bloques T1 T2 T3 ... Ti ... Ta
B1 y11 y21 y31 ... yi1 ... ya1 y .1
. . . . ... . ... . .
. . . . ... . ... . .
. . . . ... . ... . .
. . . . ... . ... .
y1b y2b y3b ... yib ... Yab y. b
Bb
donde:
yij : Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.
: Es la gran media
i : Es el efecto del i-ésimo tratamiento.
ij : Es el efecto del j-ésimo bloque.
ij : es el error aleatorio correspondiente a la observación y ij.
Página | 46
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
a b
También
i 1
i 0 y
j 1
j 0
Página | 47
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
SUMA DE CUADRADOS
a b
y..2
SCTotal
i 1 j 1
y ij2
ab
a
y i2. y..2
SCT i 1
b
ab
b
y.2j y..2
SCB j 1
b
ab
SCE SCTotal SCT SCB
SCT CMT
Tratamientos a-1 SCT CMT FT
a 1 CME
SCB CMB
Bloque b-1 SCB CMB FB
b 1 CME
SCE
Error (a - 1)(b - 1) SCE CME
(a 1)(b 1)
Total ab - 1 SCTotal
Ejemplo 6.2
Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito de aguas tóxicas
por cada una de tres agencias siguientes: la EPA, la compañía propietaria de los lugares de depósito y
un asesor independiente dedicados a asuntos de ingeniería. Cada muestra fue analizada buscando
detectar la presencia de cierto contaminante por todos los métodos de laboratorio que la agencia que
recolectó la muestra suele emplear. Se consideraron los siguientes resultados:
¿Existe alguna razón para creer que los laboratoristas no son, en sus mediciones, consistentes entre sí?
¿Difiere una zona de depósito con respecto a cualquier otra en su nivel de contaminación? Utilice un
nivel de significación de 0.05.
Página | 48
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Solución.
Las hipótesis nula y planteada son.
H o : 1 2 3 H o : 1 2 3 4 5
H1 : No todas las son iguales H1 : No todas las son iguales
Criterio:
Para tratamientos, se rechaza la hipótesis nula si F > 4.46, el valor de F 0.05 para 2 y 8 grados de libertad.
Para bloques, se rechaza la hipótesis nula si F > 3.84, el valor de F 0.05 para 4 y 8 grados de libertad.
Tabla Resumen:
Cálculos:
a b
Sustituyendo a = 3, b. = 5 y1. = 81.6, y2. = 65.6, y3. = 70.9 y.. = 218.1, y y
i 1 j 1
2
ij 436.97 en las
3 5
y
i 1 j 1
2
ij
(218.1) 2
3171.17
a.b (15)
Página | 49
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Terminología usada
Respuesta: es el nombre genérico que se da a la característica estudiada.
Factores: se designa de esta forma a las variables que se considera puedan afectar a la respuesta.
Niveles: son los valores que toma un factor en un determinado experimento.
Ejemplo 6.3
Supóngase que se desea diseñar un muelle de manera que el número máximo de compresiones hasta
la rotura sea lo mayor posible, y que para ello se pueda jugar con tres variables: la longitud, el grosor
del alambre de partida y el tipo de acero del alambre (pueden existir un conjunto mayor de variables).
Además se ha determinado que se experimentará con dos valores de longitud, 10cm y 15cm, y con dos
niveles de grosor, diámetros de 5mm y 7mm, y con dos tipos de acero, A y B.
Página | 50
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
SUMA DE CUADRADOS
r a b
y..2
SST y
k 1 i 1 j 1
2
ijk
abr
a b yij2. y..2
SS (Tr )
i 1 j 1 r
abr
SSE SST SS (Tr )
1 a
y ..
2
SSA
br
y
i 1
2
i ..
abr
1 b
y ..
2
SSB
ar
y j 1
2
. j.
abr
SS ( AB ) SS ( Tr ) SSA SSB
Página | 51
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Ejemplo 6.4
Para determinar las condiciones óptimas para un baño de galvanoplástico, los efectos de la
concentración de sulfota y la de la temperatura del baño sobre la reflectividad del metal revestido se
estudian en un experimento factorial 2x5. Los resultados de tres réplicas son los siguientes:
Analice esos resultados y determine la condición o condiciones del baño que producen la máxima
capacidad de reflexión.
Solución.
Las hipótesis nula y planteada son.
{H o : α1 = α 2 = 0 {H o : β1 = β 2 = β 3 = β 4 = β 5 = 0
{H o : ( αβ )11 = ( αβ )12 = ... = ( αβ )25 = 0
Criterio:
Para el efecto principal del factor A: Si F> F(1,18)
Para el efecto principal del factor B: Si F> F(4,18)
Para el efecto interacción: Si F> F(4,18)
Página | 52
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Tabla Resumen
RESUMEN 75 100 125 150 175 Total
5
Cuenta 3 3 3 3 3 15
Suma 110 104 94 71 59 438
Promedio 36.666667 34.666667 31.3333333 23.667 19.66666667 29.2
Varianza 4.3333333 10.333333 2.33333333 16.333 4.333333333 50.74285714
10
Cuenta 3 3 3 3 3 15
Suma 125 119 109 122 99 574
Promedio 41.666667 39.666667 36.3333333 40.667 33 38.26666667
Varianza 16.333333 16.333333 14.3333333 36.333 19 25.4952381
Total
Cuenta 6 6 6 6 6
Suma 235 223 203 193 158
Promedio 39.166667 37.166667 33.8333333 32.167 26.33333333
Varianza 15.766667 18.166667 14.1666667 107.77 62.66666667
Resultados:
Error 20 280 14
Total 29 1683.87
Página | 53
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
EJERCICIOS PROPUESTOS
Ejercicio 1
Consideremos cuatro compañías (A, B, C y D), cuyas acciones cotizan en bolsa. Seleccionamos de forma
aleatoria las cotizaciones de estas acciones durante diferentes instantes de tiempo a lo largo de un
mes. Así pues, para la compañía A se observa la cotización en cinco instantes aleatorios, para la B se
observa en cuatro, para la C se observa en seis y, finalmente, para la compañía D, en cinco. En la tabla
siguiente se da la cotización en pesetas de las diferentes acciones en los instantes de tiempo
seleccionados:
Contraste el nivel del 5% si las cotizaciones medias de las acciones de cada una de las cuatro compañías
se pueden considerar iguales. Confeccionad la tabla de análisis de la varianza.
Ejercicio 2
Los estudiantes de segundo curso de una escuela universitaria de ingeniería estuvieron repartidos de
forma aleatoria en tres grupos. En cada grupo se enseñó estadística con una estrategia docente
diferente. Al final del curso todos los alumnos hicieron el mismo examen. Se seleccionaron de forma
aleatoria algunas cualificaciones obtenidas por algunos alumnos de los tres grupos. Los resultados son
los siguientes:
Haga un análisis de la varianza e indique si puede asegurar a un nivel significativo del 0,05 que el
resultado obtenido depende de la técnica de enseñanza utilizada.
Ejercicio 3
Una compañía necesita de cierto químico como materia prima y está buscando donde mandarlo a
hacer. Antes de tomar una decisión, le pide a 4 laboratorios que le hagan 5 muestras. Vemos los
resultados en alguna métrica en la siguiente tabla. ¿Hay una diferencia entre las medias de las
poblaciones?
Lab 1 4.13 4.07 4.04 4.07 4.05
Lab 2 3.86 3.85 4.08 4.11 4.08
Lab 3 4.00 4.02 4.01 4.01 4.04
Lab 4 3.88 3.89 3.91 3.96 3.92
Página | 54
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
ANÁLISIS DE REGRESIÓN
E L DIAGRAMA DE DISPERSIÓN
El primer paso en el análisis de regresión, es construir una gráfica de los datos muestrales en un plano
bidimensional. Esta gráfica se denomina diagrama de dispersión,
Ejemplo 7.1
En la tabla siguiente, X es la fuerza de tensión aplicada a un espécimen de acero en miles de libras y Y
es el alargamiento resultante en milésimas de pulgada:
X 1 2 3 4 5 6
Y 14 33 40 63 76 85
Página | 55
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
DIAGRAMA DE DISPERSION
90
Y 80
70
60
50
40
30
20
10
1 2 3 4 5 6
x
ˆ i a bx
y
La suma de las desviaciones verticales de los puntos con relación a la recta es cero; y
La suma de los cuadrados de las desviaciones es mínima (es decir, ninguna otra recta daría una
menor suma de cuadrados de tales desviaciones)
( y yˆ )
i 1
i i
2
Los valores de a y b que minimizan la suma de los cuadrados de las desviaciones, son las soluciones de
las llamadas ecuaciones normales de la recta de regresión:
Página | 56
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
n
n
yi
i 1
na b xi
i 1
n
n
n 2
i 1
xi yi a xi b xi
i 1 i 1
Resolviendo las ecuaciones simultáneas para a y b tenemos:
n n n
n xi y i xi y i
b i 1 i 1 i 1
2
n 2 n
n xi xi
i 1 i 1
a y bx
Regression Analysis
Analysis of Variance
Source DF SS MS F P
Regression 1 3672.1 3672.1 234.25 0.000
Residual Error 4 62.7 15.7
Total 5 3734.8
Predicted Values
Fit StDev Fit 95.0% CI 95.0% PI
37.35 1.87 (32.15,42.55) (25.19, 49.51)
Página | 57
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Y = β0 + β1 x1 + β2 x2 + β1 x1 + ... + βk xk + ε
Y : variable respuesta que se quiere predecir
0, 1,. ., k : constantes.
x1, x2,... , xk : variables predictoras independientes que se miden sin error.
: es un error aleatorio que, para cualquier conjunto dado de valores de x1,
x2,...,xk , tienen una distribución normal con media igual a cero y una varianza
igual a 2. Los errores aleatorios, digamos , j asociados a cualquier par de
valores son independientes.
Ŷ = b0 + b1 x1 + b2 x2 + +... + bk xk
Y : valor estimado de la variable dependiente
b0, b1,. ., bk : estimaciones muestrales de los parámetros poblacionales
x1, x2,... , xk : son variables predictoras
Y = X +
Página | 58
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
A NÁLISIS DE VARIANZA
Para probar la significancia de una regresión puede utilizarse el método del análisis de varianza. El
procedimiento particiona la variabilidad total en la variable de respuesta en dos componentes:
y y yˆ i y y i yˆ i
n n n
2 2 2
i
i 1 i 1 i 1
Los dos componentes del lado derecho de la ecuación miden, respectivamente, la cantidad de la
variabilidad en y¡ tomada en cuenta por la recta de regresión (suma de los cuadrados de la regresión) y
la variación residual que queda sin explicar por la recta (suma de los cuadrados de los errores).
De manera simbólica, podemos escribir la ecuación anterior como:
Página | 59
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
MS R
Por tanto, si la hipótesis nula Ho: 1 = 2 = 3 …n = 0 se rechaza, el estadístico F que sigue la
MS E
distribución Fk, n-k-1, debe ser: F > F1-, k, n-k-1 (valor crítico para un dado).
SS E
s y. x MS E
n p
donde p = k +1es el numero de parámetros a estimar.
Un valor de R2 cercano a uno significa que la ecuación es muy exacta porque explica una gran porción
de la variabilidad de y. Se define como:
SS R
R2
SST
Si embargo si se introducen excesivas variables ala modelo el coeficiente de determinación
incrementará su valor, por tal razón se suele calcular el coeficiente de determinación ajustado:
p(1 R 2 )
R ajustado R
2 2
n p 1
Los valores t calculados son de particular importancia en la regresión múltiple porque constituyen la
forma principal de detectar multicolinealidad. Si son suficientemente grandes, la correlación entre las
dos variables predictoras no es un problema. Si uno o ambos valores t son menores que los valores t de
tablas, la multicolinealidad está presente.
H0 : i 0 ˆi
T
H1 : i 0 s ˆi
Página | 60
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Página | 61
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Ejemplo 7.2
A doce especímenes de láminas de acero reducido en frío con contenidos diferentes de cobre y
diferentes temperaturas de recocido se les mide su dureza con los siguientes resultados:
Ajuste una ecuación de la forma y = b0 +b1x1 + b2x2, donde x1 representa el contenido de cobre, x2
representa la temperatura de recocido y y representa la dureza.
Estime la dureza de una lámina de acero con un contenido de cobre de 0.05% y una temperatura de
recocido de 1150 °F.
Página | 62
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
Regression Analysis
Analysis of Variance
Source DF SS MS F P
Regression 2 1152.19 576.09 40.09 0.000
Residual Error 9 129.34 14.37
Total 11 1281.53
Source DF Seq SS
Cobre 1 55.65
Temperat 1 1096.54
Predicted Values
Fit StDev Fit 95.0% CI 95.0% PI
64.66 1.38 (61.54, 67.78) (55.54, 73.78)
Página | 63
Profesor : Eduardo Carbajal López
Curso : Estadística Experimental para la Toma de Decisiones
Maestría Ingeniería Industrial
EJERCICIOS PROPUESTOS
Ejercicio 1
La resistencia del cemento depende, entre otras cosas, del tiempo de secado del cemento . En un
experimento se obtuvo la resistencia de bloques de cemento con diferente tiempo de secado los
resultados fueron los siguientes
Analice si existe una relación lineal y de haberla encuentre el modelo que ajusta a estos datos.
Ejercicio 2
En 34 lotes de 120 libras de cacahuetes se observó el nivel medio de aflatoxin (partes por billón) y
el porcentaje de cacahuetes no contaminados en cada lote .
Analice si existe una relación lineal y de haberla encuentre el modelo que ajusta a estos datos.
Página | 64