Documentos de Académico
Documentos de Profesional
Documentos de Cultura
IQF-1001
Contenido
pág. 1
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Con base al conocimiento de los modelos probabilísticos más utilizados y teniendo en cuenta el
planteamiento del problema y el estudio descriptivo previo, elegir un modelo de probabilidad (Teoría de
la Probabilidad).
Estimar los parámetros del modelo supuesto a partir de las observaciones muestrales utilizando los
métodos de Inferencia Estadística: estimación puntual, estimación por intervalos de confianza y
contrastes de hipótesis paramétricos.
Checar que el modelo de probabilidad ajustado a los datos es adecuado y que se verifican las hipótesis
supuestas en el estudio, por ejemplo, que las observaciones muestrales son independientes, que no
existen observaciones erróneas, etc. Para ello se utilizan los métodos de Inferencia no Paramétrica.
Si se acepta que el modelo ajustado es adecuado se puede utilizar para obtener resultados y conclusiones
sobre la variable en estudio. En caso contrario, se debe reformular el modelo de probabilidad y repetir el
proceso desde el paso 4.
“El conjunto de métodos estadísticos que permiten deducir (inferir) como se distribuye la población en
estudio o las relaciones estocásticas entre varias variables de interés a partir de la información que
proporciona una muestra”.
Se presenta la variabilidad, como resultado de los cambios en las condiciones bajo las que se hacen las
observaciones, al sistema de medición utilizado o a causas que, en algunos casos no se pueden controlar.
pág. 2
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
El campo de la Estadística tiene que ver con la recopilación, presentación, análisis y uso de datos para
tomar decisiones y resolver problemas; de manera más específica el conocimiento de la Estadística y la
Probabilidad puede constituirse en una herramienta poderosa para ayudar a los científicos e ingenieros a
diseñar nuevos productos y sistemas, a perfeccionar los existentes y a diseñar, desarrollar y mejorar los
procesos de producción.
Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por filas.
En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las
agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.
Las medidas de tendencia central, indican mediante un valor o atributo la localización central de la
distribución de frecuencias.
Media: Centro de un grupo de datos es el promedio aritmético ordinario y se le conoce como media
muestral.
∑ xi x 1+ x2 +…+ xi
x= i=1 =
n n
∑ xi
x= i=1
n
x=16.764
Cuando se tiene un conjunto de n datos, que se encuentran agrupados en una distribución de frecuencias
una aproximación de la media es:
pág. 3
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
∑ F i∗M i
X = i =1
N
X = valor de la media
K = Es el número de intervalos
Fi = Es la frecuencia del i-ésimo intervalo.
Li+ Ls
Mi = Es la marca de clase del i-ésimo intervalo
2
N = Es el número de datos.
Ejemplo #2: Supóngase la siguiente tabla de datos ordenados de algún grupo en particular:
∑ F i∗M i 8650
X = i =1 = =48.05555
N 180
Mediana: Es el punto donde los datos se dividen en 2 partes iguales, para esto se ordena de manera
creciente cumpliendo con los siguientes parámetros:
{
x n +1
Impar
2
~
x= x n + x n+ 1
2 2
¿ Par
2
pág. 4
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #3: Las siguientes tomas corresponden a las de un horno registradas en los lotes sucesivos en
un proceso de fabricación de semiconductores en (ºF): 950, 948, 955, 951, 949, 957, 954, 955,
ordenados de mayor tenemos: 948, 949, 950, 951, 954, 955, 955, 957, los datos son pares la mediana es:
~ 951+954
x=948 , 949, 950, 951 , 954 , 955, 955, 957= =952.5
2
Ejemplo #4: Supongamos que también calculamos la mediana del salario inicial de los egresados de la
escuela de economía. Ordenamos los 12 elementos de la tabla:
~
x=2210, 2255, 2350, 2380, 2380, 2390, 2420 , 2440, 2450, 2550, 2630, 2850
~ 2390+2420
x= =2405
2
Es la observación que se presenta con mayor frecuencia en la muestra; esta puede ser una sola o más
cuando se iguala el número de veces que n datos se presentan en la muestra de igual forma.
Ejemplo #5: Considere las siguientes observaciones que fueron el número de veces que una persona
tomó agua al día: 3, 6, 9, 3, 5, 8, 3, 10, 4, 6, 3, 1, 6, 2, 5, 6 los datos de moda son 3 y 6 pues se presentan
4 veces en la muestra.
Ejemplo #6: Se tiene como resultado de la compra de refrescos la siguiente distribución de frecuencias:
Marca Frecuencia
Coke Classic 19
Diet Coke 8
pág. 5
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Dr. Pepper 5
Pepsi-Cola 13
Sprite 5
Total 50
La moda o el refresco que se compra con mayores frecuencias es Coke Classic. Para este tipo de datos es
claro que no tiene sentido hablar de la media o de la mediana.
Las medidas de dispersión o también llamadas medidas de variación, son aquellas que indican que tan
alejados o dispersos se encuentran los datos, con respecto a sí mismos o con respecto a la media del
conjunto de datos. Entre estos se encuentran el rango, la desviación media, la varianza y la desviación
estándar.
Está definido como la diferencia entre la observación más grande y más pequeña; mientras más grande
sea el rango mayor será la variabilidad en los datos.
Ejemplo #7: En un experimento donde se investigó el efecto de varias variables de un proceso sobre la
oxidación en fase de vapor de naftaleno. La siguiente es una muestra del porcentaje de conversión de
moles a anhídrido de maleico: 4.2, 4.7, 4.7, 5, 3.8, 3.6, 3, 5.1, 3.1, 3.8, 4.8, 4, 5.2, 4.3, 2.8, 2, 2.8, 3.3,
4.8, 5. Primero ordenamos los datos de menor a mayor: 2, 2.8, 2.8, 3, 3.1, 3.3, 3.6, 3.8, 3.8, 4, 4.2, 4.3,
4.7, 4.7, 4.8, 4.8, 5, 5, 5.1, 5.2.
Es el promedio de los valores absolutos de las desviaciones de los datos con respecto a la media. Indica
en promedio el número de unidades en que cada dato se encuentra alejado de la media:
DM =
∑|xi −x|
n
DM =
∑|xi −x|
n
pág. 6
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
|16.85−16.764|+|16.4−16.764|+…+|16.57−16.764|
DM = =0.278
10
Ejemplo #9: Supóngase la siguiente tabla de datos ordenados de algún grupo en particular:
DM =
∑ F i|M i−X|
n
∑ F i∗M i 11870
X = i =1 = =59.35
N 200
DM =
∑ F i|M i−X|= 3427.4 =17.1375
n 200
En un conjunto de datos la varianza se define como el promedio de los cuadrados de las desviaciones de
los datos con respecto a la media. Su valor indica la forma en que están distribuidos los datos con
respecto a la media:
(∑ )
n 2
n
xi
∑ ( xi ) −2 i=1
n
s = i=1
2
n−1
pág. 7
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #10: En un experimento donde se investigó el efecto de varias variables de un proceso sobre la
oxidación en fase de vapor de naftaleno. La siguiente es una muestra del porcentaje de conversión de
moles a anhídrido de maleico: 4.2, 4.7, 4.7, 5, 3.8, 3.6, 3, 5.1, 3.1, 3.8, 4.8, 4, 5.2, 4.3, 2.8, 2, 2.8, 3.3,
4.8, 5.
2
s =0.866315
s=0.930760
pág. 8
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #11: Supóngase la siguiente tabla de datos ordenados de algún grupo en particular:
s=
∑
2
F i∗( M i− X )2
n
∑ F i∗M i 11870
X = i =1 = =59.35
N 200
2
s=
∑ F i∗( M i− X )2 83315.5
= =416.5775
n 200
s=20.410230
s
V=
x
Ejemplo #12: En un experimento donde se investigó el efecto de varias variables de un proceso sobre la
oxidación en fase de vapor de naftaleno. La siguiente es una muestra del porcentaje de conversión de
moles a anhídrido de maleico: 4.2, 4.7, 4.7, 5, 3.8, 3.6, 3, 5.1, 3.1, 3.8, 4.8, 4, 5.2, 4.3, 2.8, 2, 2.8, 3.3,
4.8, 5.
pág. 9
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
s 0.930760
V= = =0.23269 o 23.269 %
x 4
Coeficiente de Variación en datos agrupados
Ejemplo #13: Supóngase la siguiente tabla de datos ordenados de algún grupo en particular:
s=
∑
2
F i∗( M i− X )2
n
∑ F i∗M i 11870
X = i =1 = =59.35
N 200
2
s=
∑ F i∗( M i− X )2 83315.5
= =416.5775
n 200
s=20.410230
s 20.410230
V= = =0.34389 o 34.389 %
x 59.35
Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por filas.
En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las
agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.
pág. 10
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #14: La NASA en EUA, está evaluando una muestra de aleación metalúrgica como posible
material de una parte específica de sus aeronaves, las cuales representan una resistencia a la tensión, en
libras por pulgada cuadrada (psi); de 80 muestras donde se tomaron los siguientes datos:
2.- ¿De qué manera podemos utilizar esta información para determinar si el material probado es fuerte o
débil?
Un diagrama de tallo y hoja es una buena manera de obtener una representación visual informativa del
conjunto de datos a analizar, para formar éste, se componen de un tallo que está formado por uno o más
de los dígitos principales, y una hoja, la cual contiene el resto de los dígitos.
Una vez ordenados los datos y habiendo estructurado el diagrama tallo – hoja, podemos organizar los
datos en un diagrama de frecuencias, el cual ofrece un resumen más compacto de los datos que el
diagrama anterior.
pág. 11
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Lo primero será ordenar los datos de mayor a menor, una herramienta útil para tal efecto es el diagrama
tallo – hoja:
7 6
8 7
9 7
10 15
11 058
12 013
13 133455
14 12356899
15 001344678888
16 0003357789
17 0112445668
18 0011346
19 034699
20 0178
21 8
22 189
23 7
24 5
Entonces:
pág. 12
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Podemos organizar los datos en un diagrama de frecuencias, el cual ofrece un resumen más compacto de
los datos que el diagrama anterior.
Diagrama de Frecuencias
Intervalo de Clase: en muchos casos resulta satisfactorio utilizar entre 5 y 20 clases y el número de
clases debe aumentar en función de n. Para los datos de la tabla de muestras anterior se tienen 80 datos,
dado que: √2 80=8.9442≈ 9 clases serán adecuadas para la distribución de frecuencias; dado que el dato
más pequeño es 76 y el más grande 245; 245 – 76 = 169 unidades de rango se tendrán. Para determinar
el ancho de intervalo se divide el rango entre el número de clases.
169
Amplitud= =18.7777
9
pág. 13
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Para representar gráficamente los datos se utiliza el histograma, normalmente representado por barras,
donde el eje horizontal se utiliza para representar la escala de medición y el vertical la escala de
frecuencias o frecuencias relativas acumuladas.
Histograma
Histograma
20 19
18 17
16
16
14
12
10 9
8
6
6
4 4
4 3
2
2
0
76 ≤ x < 94.7777 ≤ x 113.5554 ≤ x 132.3331 ≤ x 151.1108 ≤ x 169.8885 ≤ x 188.6662 ≤ x 207.4439 ≤ x 226.2216 ≤ x
94.7777 < 113.5554 < 132.3331 < 151.1108 < 169.8885 < 188.6662 < 207.4439 < 226.2216 ≤ 245
F. R. Acumulada
1.2
1
1 0.95
0.9125
0.8
0.8
0.5875
0.6
0.4 0.35
0.2 0.15
0.075
0.025
0
76 ≤ x < 94.7777 ≤ x 113.5554 ≤ x 132.3331 ≤ x 151.1108 ≤ x 169.8885 ≤ x 188.6662 ≤ x 207.4439 ≤ x 226.2216 ≤ x
94.7777 < 113.5554 < 132.3331 < 151.1108 < 169.8885 < 188.6662 < 207.4439 < 226.2216 ≤ 245
pág. 14
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Datos no agrupados:
13013
x= =162.6225
80
~ 160+163
x= =161.5
2
|76−162.6225|+|87−162.6225|+…+|250−162.6225|
DM = =25.8125
80
( 13,013 )2
2,206,837−
2 80
s= =1140.63149
80−1
s= √ 1140.63149=33.7723
2
33.7723
v= =0.2076=20.76 %
162.6225
Moda :158
Rango :169
Datos agrupados:
94.7777 ≤ x < 113.555 4 104.16655 416.6662 -59.149773 3498.6956 13994.7823 59.149773 236.59909
113.555 ≤ x < 132.333 6 122.94425 737.6655 -40.372073 1629.9042 9779.42543 40.372073 242.23244
132.333 ≤ x < 151.111 16 141.72195 2267.5512 -21.594373 466.31692 7461.07078 21.594373 345.50996
151.111 ≤ x < 169.889 19 160.49965 3049.4934 -2.8166725 7.933644 150.739235 2.8166725 53.516777
169.889 ≤ x < 188.666 17 179.27735 3047.715 15.9610275 254.7544 4330.82478 15.961028 271.33747
188.666 ≤ x < 207.444 9 198.05505 1782.4955 34.7387275 1206.7792 10861.0127 34.738728 312.64855
207.444 ≤ x < 226.222 3 216.83275 650.49825 53.5164275 2864.008 8592.02404 53.516428 160.54928
pág. 15
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
13065.306
x= =163.3163
80
~
x=160.49965
2067.4264
DM = =25.8428
80
2 88221.2272
s= =1102.7653
80
s= √ 1102.7653=33.2079
2
33.2079
v= =0.2033=20.33 %
163.3163
Cuartiles y Percentiles
Cuartiles: es cuando se divide un conjunto ordenado en 4 partes iguales, los puntos de división se
conocen como cuartiles, el primer cuartil q1 es un valor que tiene aproximadamente el 25% de las
observaciones por debajo de él y el 75% restante por encima de él. El segundo cuartil q 2 es igual a la
mediana, y el tercer cuartil q3, tiene 75% de las observaciones por debajo de él.
Ejemplo #15: Considere las observaciones siguientes para determinar q 1, q2 y q3. Los siguientes datos
representan la resistencia en psi de aleación aluminio – litio:130, 150, 145, 158, 165, 140;
acomodándolos de menor a mayor tenemos: 130, 140, 145, 150, 158, 165; por lo tanto:
145 +150
q 2= =147.5
2
q 1=140
q 3=158
Ejemplo #16: El tiempo de falla en horas de un material aislante eléctrico es el siguiente: 204, 228, 252,
300, 324, 444, 624, 720, 816, 912, 1176, 1296, 1392, 1488, 1512, 2520, 2856, 3192, 3528, 3710.
(No hay necesidad de acomodarlos)
912+1176
q 2= =1044
2
pág. 16
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
324 + 444
q 1= =384
2
1512+ 2520
q 3= =2016
2
Percentiles: Conjunto de Datos que se divide en 100 partes iguales, el 100 k – ésimo percentil es un
valor de tal, que al menos el 100 k% de las observaciones están por debajo de él y al menos 100 (1 – k)
% están en el valor o por encima de él.
Pk =n∗k
Si n*k es entero, agregar 0.5 y promediar los valores de la ubicación. Sin n*k no es entero, entonces
redondear al próximo entero más grande.
Ejemplo #17: El tiempo de falla en horas de un material aislante eléctrico es el siguiente: 204, 228, 252,
300, 324, 444, 624, 720, 816, 912, 1176, 1296, 1392, 1488, 1512, 2520, 2856, 3192, 3528, 3710.
Calcule los percentiles 23, 45, 68 y 92.
P23=20∗0.23=4.6 ≅ 5 → P23=324
816+912
P45=20∗0.45=9+0.5=9.5 → P 45= =864
2
P68=20∗0.68=13.6 ≅ 14 → P68=1488
P92=20∗0.92=18.4 ≅ 19 → P92=3528
El Diagrama de Cajas es una presentación visual que describe al mismo tiempo varias características
importantes de un conjunto de datos, tales como el centro, la dispersión, la desviación de la simetría y la
identificación de observaciones que se alejan de manera poco usual del resto de los datos. Éste diagrama
presenta los 3 cuartiles, y los valores máximo y mínimo de los datos sobre un rectángulo, alineado
horizontal o verticalmente, el rectángulo delimita el rango intercuartílico con la arista a la izquierda
ubicada en el primer cuartil y a la derecha ubicada en el tercer cuartil; se dibuja una línea a través del
rectángulo que representa el segundo cuartil; de las aristas al rectángulo se dibuja una línea que se
denomina bigote que va hacia los valores extremos.
pág. 17
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Combinaciones
Una segunda regla de conteo que con frecuencia es de utilidad, permite contar la cantidad de resultados
experimentales cuando en un experimento se deben seleccionar r objetos entre un conjunto de n objetos
(por lo común más grande). Se llama regla de conteo para combinaciones. El orden de los objetos
seleccionados no es importante en el orden.
Regla de conteo para combinaciones: La cantidad de combinaciones de n objetos tomados r a la vez es:
C= ( nr)= r ! ( n−r
n!
)!
Ejemplo #18: Con parte de su primer salario un chavo decide comprar tres de los siete álbumes digitales
que le faltan de Bad Bunny. ¿Cuántas posibilidades tiene? Hay que elegir 3 objetos (sin importar el
orden) de un conjunto de siete. Hay entonces:
C= ( nr)= r ! ( n−r
n!
=( )=
7 7!
=
7!
) ! 3 3 ! ( 7−3 ) ! 3 ! 4 !
=35
pág. 18
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #19: En un examen de Historia se requiere contestar cuatro de doce preguntas. ¿Cuántas
maneras diferentes hay de contestar este examen? Se requiere ahora escoger cuatro objetos de un
conjunto de doce. Observemos que se nuevo el orden en que se escogen las ocho preguntas resulta
irrelevante, puesto que, por ejemplo, da lo mismo seleccionar las preguntas 4,5,8 y 11 que las preguntas
11,4,5 y 8.
C= ( nr)= r ! ( n−r
n!
)!
=( )=
12
4
12!
4 ! ( 12−4 ) !
=
4
12 !
!8!
=495
Ejemplo #20: Una prueba de “verdadero-falso” comprende doce preguntas. Calcule los números de
maneras en que un estudiante puede marcar cada pregunta ya sea como verdadero o falso y obtener.
C= ( nr)= r ! ( n−r
n!
)!
=( )=
12
8
12 !
=
12 !
8 ! ( 12−8 ) ! 8 ! 4 !
=495
C= ( nr)= r ! ( n−r
n!
=( )=
12 12 !
=
12 !
) ! 10 10 ! ( 12−10 ) ! 10 ! 2!
=66
Ejemplo #21: Un paquete de diez baterías tiene dos piezas defectuosas ¿De cuántas maneras se pueden
seleccionar tres de estas baterías y sacar:
C= ( nr)= r ! ( n−r
n!
)!
=( )=
8
3
8!
3 ! ( 8−3 ) !
=
3
8!
!5!
=56
C= ( nr)∗(nr)=(21)∗( 82)=2∗28=56
c) Las dos baterías defectuosas:
C= ( nr)∗(nr)=(22)∗( 81)=1∗8=8
pág. 19
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 20
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Permutaciones
Una permutación de objetos implica orden mientras que una combinación no toma el orden de los
objetos considerados. Dado un conjunto que contiene n elementos distintos X = {x1, x2, .... xn}.
P= (nr)= ( n−rn! ) !
Ejemplo #22: Una cadena de tiendas de muebles tiene tres almacenes y veinte sucursales de venta al
menudeo. ¿De cuantas maneras diferentes pueden embarcar un artículo de uno de los almacenes a una
de las sucursales de menoreo?:
Existen 6840 maneras diferentes pueden embarcar un artículo de uno de los almacenes a una de las
sucursales de menoreo.
Ejemplo #23: En unas vacaciones una persona querría visitar tres de diez Sitios históricos de Filadelfia.
¿De cuántas maneras distintas puede planear su viaje si el orden de las visitas tiene importancia?
Ejemplo #24: ¿De cuántas maneras distintas se puede asignar a once representantes de servicio para
cuatro nuevos clientes corporativos, suponiendo que a cada representante de servicio se le pueda asignar
a lo sumo uno de los clientes corporativos?
Ejemplo #25: Un parque de diversiones tiene 28 recorridos distintos. ¿De cuántas maneras diferentes
una persona puede tomar cuatro de estos recorridos, suponiendo que el orden es importante y que esta
persona no quiera tomar un recorrido más de una vez?
pág. 21
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #26: Si en una carrera participan nueve caballos ¿De cuántas maneras distintas pueden terminar
en primero, segundo y tercer lugar?
Ejemplo #27: Hay cinco rutas entre la casa de una ejecutiva y su sitio de trabajo:
b) ¿De cuantas maneras distintas puede ir al trabajo y regresar si no quiere tomar la misma ruta de ida y
vuelta?:
c) Si una de sus cinco rutas corre sobre una calle de un solo sentido, entonces ¿de cuantas maneras
distintas puede ir al trabajo y regresar (suponiendo que quiera tomar la misma ruta de ida y vuelta) ?:
Generalidades
El estudio de fenómenos de diversa naturaleza permite clasificar éstos en dos grandes grupos:
Fenómenos determinísticos: aquellos en los cuales una misma acción produce siempre el mismo efecto.
Fenómenos probabilísticos o aleatorios: aquellos en los cuales no siempre puede predecirse con certeza
el resultado de una misma acción.
Incertidumbre
La falta de conocimiento cierto de las cosas es la mayor fuente de ansiedad para el hombre y es natural
su deseo de remediarla. La carencia de certeza o de conocimiento cierto de la ocurrencia de
pág. 22
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
determinados eventos, lleva a correr ciertos riesgos en las decisiones esto es incertidumbre y es ahí
donde el uso de las probabilidades es de gran ayuda para minimizarlos.
“Es una verdad cierta que, cuando no está en nuestra mano distinguir las opiniones verdaderas, debemos
seguir las más probables”. (Descartes).
Experimento Aleatorio E
Es un fenómeno empírico que, repetido bajo las mismas condiciones, no siempre arroja el mismo
resultado.
Características:
Ejemplo #28:
La probabilidad se encarga de evaluar todas aquellas actividades en donde se tiene incertidumbre acerca
de los resultados que se pueden esperar, esto quiere decir que la probabilidad está presente en casi en
todas las actividades que se pretenda realizar:
Enfoque Clásico
Está basado en el concepto de equiprobabilidad del espacio muestral y fue introducido por Laplace. El
cálculo de la probabilidad bajo la concepción clásica, se realiza mediante la siguiente regla.
Regla de Laplace: La probabilidad de un suceso A es igual al cociente del número de casos favorables al
suceso, sobre el número total de casos posibles.
Esta Ley propuesta por Bernoulli, plantea que la frecuencia relativa de un suceso tiende a estabilizarse
en torno a un número, a medida que el número de pruebas del experimento crece indefinidamente. Así
bajo la concepción frecuentista, si se repite un experimento indefinidamente, la probabilidad de un
suceso A es un número ideal al que se aproxima su frecuencia relativa cuando el total de repeticiones
tiende a infinito.
NA
( A ) = lim
N→∞ N
La probabilidad es la que nos ayuda en estos casos, ya que, basándose en estadísticas, podemos
cuantificar la posibilidad de ocurrencia de los eventos y por consiguiente tomar una buena decisión
basados en esta información.
El espacio muestral de un experimento es el conjunto de todos los posibles resultados distintos del
experimento.
Ejemplo #29:
pág. 24
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
a.- Se lanza al aire un dado normal (perfectamente equilibrado), enumere los posibles resultados de este
experimento. Ω= {1, 2, 3, 4, 5, 6}
b.- Se lanza al aire dos veces una moneda normal, defina su espacio muestral. Ω = {AA, AS, SA, SS}
Evento A: El evento A es un subconjunto del espacio muestral. Obsérvese que los resultados de cada
uno de estos experimentos son fenómenos aleatorios. Es por eso que un resultado de cualquier
experimento con frecuencias se denomina Evento Aleatorio. Los Eventos aleatorios se clasifican como
simples y compuestos.
Como se observa los experimentos y eventos probabilísticos se pueden expresar con la notación de
conjuntos y a continuación se enumeran algunas operaciones que es posible realizar con los eventos.
Evento mutuamente excluyentes o disjuntos. Aquellos que no pueden ocurrir al mismo tiempo. Dos
eventos son mutuamente excluyentes si y solo sí, la intersección de los dos conjuntos es el conjunto
vacío.
Eventos Independientes: Éstos no se ven afectados por otros, por ejemplo, el color de mis zapatos y la
probabilidad de que llueva hoy en la tarde.
Ejemplo #30: Una caja contiene 6 billetes de $500.00, 3 de $50.00 y 1 de $100.00. Determine la
probabilidad de que, al extraer al azar uno de éstos, éste sea de $100.00.
Eventos Dependientes: Cuando un evento afecta la probabilidad de que suceda otro; por ejemplo, si un
trabajo se hace descuidadamente, es más probable que resulte mal.
Ejemplo #31: Una caja contiene 6 billetes de $500.00, 3 de $50.00 y 1 de $100.00. Determine la
probabilidad de que, al extraer al azar dos de éstos, ambos sean de $500.00
Eventos No Excluyentes entre sí: Cuando la ocurrencia de uno de ellos no impide que suceda también
otro, por ejemplo, que una persona sea doctor y que tenga más de 35 años.
pág. 25
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
En el caso de eventos no excluyentes entres sí, debe considerarse que la probabilidad de que ocurran
ambos eventos está incluida en ellos, por lo que debe restarse esa probabilidad de la suma directa, esto
se conoce como Regla general de la suma de probabilidades.
P ( A ∪ B )=P ( A ) + P ( B ) −P ( A ∩ B )
Si los eventos son dependientes, deben considerarse las probabilidades de que ocurra un segundo evento,
ya ocurrió un primero, esto se conoce como Regla de la multiplicación de probabilidades. P(A|B) indica
la probabilidad de que ocurra el evento A, si ya se sabe que ocurrió el evento B, otra forma de
interpretarlo es la probabilidad de A dada B.
P ( B∩ A )
P ( A ∩B )=P ( A )∗P ( B| A ) → P ( B| A ) =
P (A )
P(A∩B)
P ( B ∩ A )=P ( B )∗P ( A|B ) → P ( A|B )=
P(B)
P ( A ∪ B )=P ( A ) + P ( B )
Para eventos no excluyentes entre sí:
P ( A ∪ B )=P ( A ) + P ( B ) −P ( A ∩ B )
Para eventos complementarios:
P ( A ' )=1−P ( A )
Leyes de Morgan
pág. 26
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Probabilidad de que ocurra “al menos” un suceso de dos A y B; probabilidad de que ocurra A o B:
P ( A ∪B )
Probabilidad de que ocurra “simultáneamente” o ambos sucesos A y B; probabilidad de que ocurra A y
B: P ( A ∩B )
P ( A ∩B ' )+ P ( B ∩ A ' )
Ejemplo #33: De los 39 alumnos de una clase, 16 escogieron francés y 27 inglés. 9 alumnos eligieron
ambos, y el resto no escogió ninguno de ellos. Si se elige al azar un alumno de dicha clase, halla las
siguientes probabilidades:
a) Escogió francés.
b) Escogió inglés.
c) Escogió ambos idiomas.
d) Escogió francés o inglés.
e) Escogió francés, pero no inglés.
f) No escogió ni inglés ni francés.
U F I
7 9 18
a) Escogió francés:
pág. 27
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
16
P ( F)= =0.410256
39
b) Escogió inglés:
27
P ( I)= =0.692307
39
16 27 9 34
P ( F ∪ I )=P ( F ) + P ( I )−P ( F ∩ I )= + − = =0.871794
39 39 39 39
16 9 7
P ( F ∩ I ' )=P ( F ) −P ( F ∩ I ) = − = =0.179448
39 39 39
34 5
P ( F ' ∩ I ' )=P ( ( F ∪ I ) )=1−P ( F ∪ I )=1−
'
= =0.128205
39 39
Diagrama de Árbol
Un diagrama de árbol es una herramienta que se utiliza para determinar todos los posibles resultados de
un experimento aleatorio. En el cálculo de muchas probabilidades se requiere conocer el número de
objetos que forman parte del espacio muestral, estos se pueden determinar con la construcción de un
diagrama de árbol.
El diagrama de árbol es una representación gráfica de los posibles resultados del experimento, el cual
consta de una serie de pasos, donde cada uno de estos tiene un número infinito de maneras de ser llevado
a cabo. Se utiliza en los problemas de conteo y probabilidad. Para la construcción de un diagrama en
árbol se partirá poniendo una rama para cada una de las posibilidades, acompañada de su probabilidad.
Cada una de estas ramas se conoce como rama de primera generación.
Un diagrama de árbol es una herramienta que se utiliza para determinar En el final de cada rama de
primera generación se constituye a su vez, un nudo del cual parten nuevas ramas conocidas como ramas
pág. 28
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
de segunda generación, según las posibilidades del siguiente paso, salvo si el nudo representa un posible
final del experimentó (nudo final).
Hay que tener en cuenta que la construcción de un árbol no depende de tener el mismo número de ramas
de segunda generación que salen de cada rama de primera generación y que la suma de probabilidades
de las ramas de cada nudo ha de dar 1. Existe un principio sencillo de los diagramas de árbol que hace
que éstos sean mucho más útiles para los cálculos rápidos de probabilidad: multiplicamos las
probabilidades si se trata de ramas adyacentes (contiguas).
Ejemplo #34: El 1% de la población de un determinado lugar padece una enfermedad. Para detectar esta
enfermedad se realiza una prueba de diagnóstico. Esta prueba da positiva en el 97% de los pacientes que
padecen la enfermedad; en el 98% de los individuos que no la padecen da negativa. Si elegimos al azar
un individuo de esa población:
Solución:
0.97
Positivo
Enfermo
0.01
Negativo
0.03
Enferme
dad
0.02
Postivo
0.99
No enfermo
Negativo
0.98
a) P(Enfermo y Positiva)
P(E)∗P (P)=0.01∗0.97=0.0097
pág. 29
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
b) P(Enfermo | Positiva)
Ejemplo #35: Una urna A contiene 7 bolas numeradas del 1 al 7. En otra urna B hay 5 bolas numeradas
del 1 al 5. Lanzamos una moneda equilibrada, de forma que, si sale cara, extraemos una bola de la urna
A y, si sale cruz, la extraemos de B.
Solución:
3/7
Par
A
1/2
Impar
4/7
Enferme
dad
2/5
Par
1/2
B
Impar
3/5
3 1 29
P ( Par )= + = =0.414228
14 5 70
b) Sabiendo que salió un número par, ¿cuál es la probabilidad de que fuera de la urna A?
pág. 30
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
3
P ( A y Par ) 14 15
P ( A|Par )= = = =0.517241
P ( Par ) 29 29
70
Probabilidad Total
Sean A1, A2,…, An un conjunto completo de sucesos incompatibles entre sí. Sea B el suceso del cual se
conocen las probabilidades condicionadas P(B/A i), entonces, la probabilidad de ocurrencia de B se
conoce como probabilidad total (completa) y su valor se determina mediante la expresión:
Es importante destacar que la probabilidad total puede entenderse como la suma de las probabilidades
compuestas P(Ai ∩ B).
Sean A1, A2,…, An un conjunto completo de sucesos incompatibles entre sí. Sea B el suceso del cual se
conocen las probabilidades condicionadas P(B/A i), entonces, la probabilidad de ocurrencia de A i dado
que ha ocurrido el suceso B, lo que se denota por “P(A i/B)”, se conoce como el teorema de Bayes y su
valor se determina mediante la expresión:
P ( A i )∗P(B / A i)
P( Ai /B)=
P( A 1)∗P(B/ A 1)+ P( A 2)∗P (B / A 2)+…+ P (A n)∗P(B/ A n)
Ejemplo #36: En la sala de pediatría de un hospital, el 60% de los pacientes son niñas. De los niños el
35% son menores de 24 meses. El 20% de las niñas tienen menos de 24 meses. Un pediatra que ingresa
a la sala selecciona un infante al azar.
Solución:
En los ejercicios de probabilidad total y teorema de Bayes, es importante identificar los sucesos que
forman la población y cuál es la característica que tienen en común dichos sucesos. Estos serán los
sucesos condicionados.
pág. 31
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
En este caso, la población es de los infantes. Y la característica en común es que sean menores de 24
meses. Por lo tanto, la probabilidad de seleccionar un infante menor de 24 meses es un ejemplo de
probabilidad total. Su probabilidad será:
Para identificar cuando en un ejercicio se hace referencia al teorema de Bayes, hay que partir de
reconocer esta es una probabilidad condicionada y que la característica común de los sucesos
condicionantes ya ha ocurrido. Entonces, la probabilidad de que sea niña un infante menor de 24 meses
será:
P ( H )∗P ( M |H ) 0.6∗0.2
P ( H∨M )= = =0.461538
P ( H )∗P ( M| H ) + P (V )∗P ( M|V ) 0.6∗0.2+ 0.4∗0.35
Ejemplo #37: Un médico cirujano se especializa en cirugías estéticas. Entre sus pacientes, el 20% se
realizan correcciones faciales, un 35% implantes mamarios y el restante en otras cirugías correctivas. Se
sabe, además, que son de género masculino el 25% de los que se realizan correcciones faciales, 15%
implantes mamarios y 40% otras cirugías correctivas. Si se selecciona un paciente al azar, determine:
Solución:
a) La probabilidad de que sea de género masculino se refiere a un problema de probabilidad total, ya que
es el suceso condicionado y las cirugías los condicionantes. Dicho valor será:
P ( H )=0.2∗0.25+0.35∗0.15+0.45∗0.4=0.2825
pág. 32
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
b) Como el suceso condicionado ha ocurrido entonces se aplica el teorema de Bayes, luego, el valor de
la probabilidad será:
P ( M )∗P ( H|M )
P ( M ∨H )=
P ( F )∗P ( H|F ) + P ( M )∗P ( H|M )+ P ( O )∗P ( H|O )
0.35∗0.15
P ( M ∨H )= =0.185840
0.2∗0.25+0.35∗0.15+0.45∗0.4
Retomemos el ejemplo #14 anteriormente descrito, y vamos a utilizar el software Minitab® 18:
A.- Vamos a abrir el software y deberá a parecer una ventana como esta:
B.- En la parte de hoja de trabajo, es la columna C1, deberá llenar los 80 datos sin importar el orden:
pág. 33
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
D.- En la casilla de variables deberá seleccionarse la columna C1, y deberemos dar aceptar, algunos
criterios podemos ajustarlos:
pág. 34
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 35
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
F.- Deberemos acomodar los datos y las gráficas en Word® para poder analizar la información:
Estadísticos descriptivos: C1
Estadísticas
Variable N N* Media Desv.Est. Varianza CoefVar Mínimo Q1 Mediana Q3
C1 8 0 162.66 33.77 1140.63 20.76 76.00 143.5 161.50 181.00
0 0
N para
Variable Máximo Rango IQR Modo moda
C1 245.00 169.0 37.50 158 4
0
Histograma de C1
pág. 36
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de caja de C1
G.- Para visualizar el Diagrama Tallo – Hoja deberemos hacer los siguiente:
pág. 37
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 38
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Tallo y hoja de C1 N = 80
1 7 6
2 8 7
3 9 7
5 1 15
0
8 1 058
1
11 1 013
2
17 1 133455
3
25 1 12356899
4
37 1 001344678888
5
(10) 1 0003357789
6
33 1 0112445668
7
23 1 0011346
8
16 1 034699
9
10 2 0178
0
6 2 8
1
5 2 189
2
2 2 7
3
1 2 5
4
Unidad de hoja = 1
pág. 39
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 40
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
A.- Lo primero que tenemos que hacer es declarar los datos que irán entre llaves {}, y se les asignará
una variable:
pág. 41
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
C.- El siguiente comando será Showstat y darle Enter, para poder visualizar los resultados:
pág. 42
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Generalidades
Una variable aleatoria discreta es aquella que puede asumir un número contable de valores. Por ejemplo,
si realizamos el experimento de salir a calle y seleccionar 10 personas al azar para un examen sorpresa
de matemáticas, podemos definir la variable aleatoria A:
A = número de personas que aprobaron el examen. Los valores que asume A (en su rango), van del 0 al
10 (0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10). El rango lo expresaríamos de la siguiente manera:
RA = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
La variable aleatoria A asume un número contable de valores, por ello, es una variable aleatoria discreta.
Otro ejemplo, vamos a realizar el experimento de registrar los automóviles a una caseta de peaje.
Podemos definir la variable aleatoria V:
Los valores que asume V (en su rango), son 0, 1, 2, 3, 4, 5, …; así sean muchos vehículos los que llegan,
siempre podremos contar la cantidad de valores que asume V. Por ello, la variable V es una variable
aleatoria discreta.
Una variable aleatoria continua, es aquella que puede asumir un número incontable de valores.
B = peso de una vaca en la granja de Jorge (en kilogramos). Alguna vaquita puede pesar 425,1872 kg;
otra puede pesar 612,5874541 kg; otra puede pesar 545,897512121 kg. Si tomamos más vacas,
podríamos tener más valores y nunca terminaríamos. Se conoce que el becerro más pequeño tiene un
peso de 30 kg, y la vaca más grande tiene un peso de 1000 kg.
Y así, tendríamos un número incontable de valores para el rango de esta variable. El rango de esta
variable puede ser cualquier valor dentro del intervalo que va desde 30 kg hasta 1000 kg. Por ello, se
trata de una variable aleatoria continua.
pág. 43
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #39: Si vamos a una agencia del banco y registramos los datos de atención a los clientes,
podemos definir la variable aleatoria D:
D = tiempo de atención a los clientes del banco (en segundos). Un cliente puede ser atendido en 24,123
s; otro cliente en 72,32142 s; otro en 51,123123 s. Si seguimos tomando más clientes, tendríamos más
valores. Se conoce además que el tiempo mínimo de atención en ventanilla es de 1 s y el tiempo máximo
es de 240 s.
Y así, tendríamos un número incontable de valores para el rango de esta variable. El rango de esta
variable puede ser cualquier valor dentro del intervalo que va desde 1 s hasta 240 s. Por ello, se trata de
una variable aleatoria continua. En general, las variables aleatorias discretas representan datos que
provienen del conteo del número de elementos, mientras que, las variables aleatorias continuas
representan datos que provienen de mediciones, por ejemplo, tiempo, peso, longitud, etc.
Las distribuciones de probabilidad son idealizaciones de los polígonos de frecuencias. En el caso de una
variable estadística continua consideramos el histograma de frecuencias relativas, y se comprueba que al
aumentar el número de datos y el número de clases el histograma tiende a estabilizarse llegando a
convertirse su perfil en la gráfica de una función.
Caracterización:
Las distribuciones de probabilidad de variable continua se definen mediante una función y=f (x )
llamada función de probabilidad o función de densidad. Así como en el histograma la frecuencia viene
dada por el área, en la función de densidad la probabilidad viene dada por el área bajo la curva, por lo
que:
Una variable aleatoria, X, es una función que asocia un número real a cada elemento del espacio
muestral XR. Pueden ser: Discretas: si su recorrido es un número finito de valores, que suele ser
pág. 44
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
entero y Continuas: si su recorrido está formado por los infinitos números reales comprendidos en un
intervalo.
Parámetros en una distribución de probabilidad
Por analogía con las variables estadísticas podemos definir también aquí la media µ y la desviación
típica de la variable aleatoria.
La media µ, también llamada esperanza matemática, es un valor representativo de todos los valores que
toma la variable aleatoria x, lo podemos imaginar como el punto sobre el eje de abscisas donde al poner
una cuña la figura plana definida por la función de densidad quedará en equilibrio. La desviación típica
es una medida de la dispersión de los valores que toma la variable aleatoria de la media. Como ocurría
con las variables estadísticas la desviación típica será más pequeña o más grande según la gráfica de la
función de densidad sea más estrecha o más ancha en torno a la media.
Una distribución de probabilidad es un modelo matemático que asocia valores de una variable aleatoria
con sus respectivas probabilidades, es decir: P(x )=F (x).
Las distribuciones se caracterizan por una fórmula que determina el tipo de distribución y por un
conjunto de parámetros, que son propios de cada espacio muestral. En el caso de una variable discreta ,
la distribución puede describirse mediante una función de probabilidad, que para cada valor de x de la
variable X determina la probabilidad de ser asumido: P( X=x)=p (x) ; o bien por medio de una función
de distribución de probabilidad acumulada o simplemente función de distribución, la que, para cada
valor provee la probabilidad de no ser superado: P( X ≤ x)=F (x ) evidentemente, el valor de la función
de distribución es igual a la suma de todos los valores de la función de probabilidad desde el extremo
inferior del dominio de la variable hasta x inclusive.
Distribución Binomial
La distribución binomial se utiliza en situaciones cuya solución tiene dos posibles resultados. Por
ejemplo:
1.- En cada prueba del experimento sólo hay dos posibles resultados: éxitos o fracasos.
2.- El resultado obtenido en cada prueba es independiente de los resultados obtenidos en pruebas
anteriores.
pág. 45
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
3.- La probabilidad de un suceso es constante, la representamos por p, y no varía de una prueba a otra.
La probabilidad del complemento es 1- p y la representamos por q.
Si repetimos el experimento n veces podemos obtener resultados para la construcción de la distribución
binomial.
1. la cantidad de pruebas n.
2. la probabilidad de éxitos p.
3. utilizar la función matemática.
n! k n−k
P ( x=k ) = ∗p ∗( 1−p )
k ! ( n−k ) !
Donde:
k: es el número de aciertos.
n: es el número de experimentos.
p:es la probabilidad de éxito, por ejemplo, que salga "cara" al lanzar la moneda.
1-p: también se le denomina como “q”
Ejemplo #40: ¿Cuál es la probabilidad de obtener 6 caras al lanzar una moneda 10 veces? El número de
aciertos k es 6. Esto es x=6; El número de experimentos n son 10; La probabilidad de éxito p, es decir,
que salga "cara" al lanzar la moneda es 50% ó 1/2.
n! k n−k
P ( x=k ) = ∗p ∗( 1−p )
k ! ( n−k ) !
()( )
6 10−6
10! 1 1
P ( x=6 ) = ∗ ∗ 1− =0.205078
6 ! ( 10−6 ) ! 2 2
Esto significa que la probabilidad de obtener 6 caras al lanzar 10 veces una moneda es de 20.5078%.
Ejemplo #41: ¿Cuál es la probabilidad de obtener cuatro veces el número 3 al lanzar un dado ocho
veces? El número de aciertos es 4. Esto es x=4; El número de experimentos n son 8; La probabilidad de
éxito p (probabilidad de que salga un 3 al tirar el dado) es 1/6.
pág. 46
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
n! k n−k
P ( x=k ) = ∗p ∗( 1−p )
k ! ( n−k ) !
() ( )
4 8−4
8! 1 1
P ( x=4 )= ∗ ∗ 1− =0.026048
4 ! ( 8−4 ) ! 6 6
Esto significa que la probabilidad de obtener cuatro veces el número 3 al tirar un dado 8 veces es de
2.6048%.
Ejemplo #42: En una fábrica de cámaras el 5% sale con defectos. Determine la probabilidad de que en
una muestra de 12 se encuentren 2 cámaras defectuosas.
n! k n−k
P ( x=k ) = ∗p ∗( 1−p )
k ! ( n−k ) !
( )( )
2 12−2
12! 1 1
P ( x=2 )= ∗ ∗ 1− =0.098792
2 ! ( 12−2 ) ! 20 20
Esto significa que la probabilidad de que en una muestra de 12 se encuentren 2 cámaras defectuosas es
de 9.8792%.
Propiedades
Ejemplo #43: En pruebas realizadas a un amortiguador para automóvil se encontró que el 20%
presentaban fuga de aceite. Si se instalan 20 de estos amortiguadores, hallar la probabilidad de que:
a) 4 salgan defectuosos,
b) más de 5 tengan fuga de aceite.
c) de 3 a 6 amortiguadores salgan defectuosos.
d) Determine el promedio y la desviación estándar de amortiguadores con defectos.
a) 4 salgan defectuosos:
n! k n−k
P ( x=k ) = ∗p ∗( 1−p )
k ! ( n−k ) !
pág. 47
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
()( )
4 20−4
20 ! 1 1
P ( x=4 )= ∗ ∗ 1− =0.218199 o 21.8199 %
(
4 ! 20−4 !) 5 5
1− [ P ( x=0 )−P ( x=1 )−P ( x=2 )−P ( x=3 ) −P ( x=4 )−P ( x=5 ) ]
1−0.011529−0.057646−0.136909−0.205364−0.218199−0.17456=¿
0.195788 o 19.5788 %
20∗1
μ=n∗p= =4
5
√
20∗1
∗4
√
2
2 5 2 16
σ =√ n∗p∗q= = =1.78885
5 5
Distribución Poisson
La distribución de Poisson se utiliza en situaciones donde los sucesos son impredecibles o de ocurrencia
aleatoria. En otras palabras, no se sabe el total de posibles resultados. Permite determinar la probabilidad
de ocurrencia de un suceso con resultado discreto.
Utilidad
La distribución de Poisson se emplea para describir procesos con un elemento en común, pueden ser
descritos por una variable aleatoria discreta.
pág. 48
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
p < 0.10
p * n < 10
µ=¿
√2 ❑
−λ k
( ) e ∗λ
P x=k =
k!
Donde:
Ejemplo #44: La probabilidad de que haya un accidente en una compañía de manufactura es de 0.02 por
cada día de trabajo. Si se trabajan 300 días al año, ¿cuál es la probabilidad de tener 3 accidentes? Como
la probabilidad p es menor que 0.1, y el producto n*p es menor que 10 (300 * 0.02 = 6), entonces,
aplicamos el modelo de distribución de Poisson:
−λ k −6 3
e ∗λ e ∗6
P ( x=k ) = → P ( x=3 ) = =0.089235
k! 3!
Esto significa que la probabilidad de tener 3 accidentes laborales en 300 días de trabajo es de 8.9235%.
pág. 49
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #45: La probabilidad de que un producto salga defectuoso es de 0.012. ¿Cuál es la probabilidad
de que entre 800 productos ya fabricados hayan 5 defectuosos? En este ejemplo vemos nuevamente la
probabilidad p menor que 0.1, y el producto n*p menor que 10, por lo que aplicamos el modelo de
distribución de Poisson:
− 48
( )
5
5 48
−λ k
e ∗
e ∗λ 5
P ( x=k ) = → P ( x=5 ) = =0.046020
k! 5!
Esto significa que la probabilidad de que entre 800 productos ya fabricados hayan 5 defectuosos es de
4.6020%.
Ejemplo #46: Si 8 de 100 viviendas violan el código de construcción. ¿cuál es la probabilidad de que un
inspector de viviendas, que selecciona aleatoriamente a 50 de ellas, descubra que:
−4 0
e−λ∗λ k e ∗( 4 )
P ( x=k ) = → P ( x=0 )= =0.018315 o 1.8315 %
k! 0!
−4 1
e−λ∗λ k e ∗( 4 )
P ( x=k ) = → P ( x=1 )= =0.073262 o 7.3262 %
k! 1!
−4 2
e−λ∗λ k e ∗( 4 )
P ( x=k ) = → P ( x=2 ) = =0.146525 o 14.6525 %
k! 2!
pág. 50
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
μ=¿ 4 y √2 4=2
Distribución Hipergeométrica
La distribución hipergeométrica es una distribución discreta que modela el número de eventos en una
muestra de tamaño fijo cuando se conoce el número total de elementos en la población de la cual
proviene la muestra. Cada elemento de la muestra tiene dos resultados posibles (es un evento o un no
evento). Las muestras no tienen reemplazo, por lo que cada elemento de la muestra es diferente.
Cuando se elige un elemento de la población, no se puede volver a elegir. Por lo tanto, la probabilidad
de que un elemento sea seleccionado aumenta con cada ensayo, presuponiendo que aún no haya sido
seleccionado.
Los experimentos que tienen este tipo de distribución tienen las siguientes características:
Al realizar un experimento con este tipo de distribución, se esperan dos tipos de resultados.
Las probabilidades asociadas a cada uno de los resultados no son constantes.
Cada ensayo o repetición del experimento no es independiente de los demás.
El número de repeticiones del experimento (n) es constante.
Si en una población de N elementos se tienen k éxitos, la probabilidad de que en una muestra aleatoria
de n elementos seleccionados sin reemplazo se tengan x éxitos está dada por:
P ( x )=
( x )( n−x ) nCr ( k , x )∗nCr (N−k , n−x) k C x∗N −kCn−x
k N−k
= =
(n )
N nCr(N , n) NCn
Donde:
Ejemplo #47: Considerando que en la urna hay un total de 10 objetos, 3 de los cuales son defectuosos, si
de seleccionan 4 objetos al azar, ¿cuál es la probabilidad de que 2 sean defectuosos?,: N=10, n=4, k=3 y
x=2
pág. 51
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
a) los 4 exploten:
b) al menos 2 no exploten:
n∗K 4∗3 6
μ= = = =1.2
N 10 5
√ √
N−n 10−4
2 ∗n∗K 2 ∗4∗3
σ=
N −1
N
K
∗ 1− =
N (
10−1
10 )
∗ 1−
3
10
=0.7483314( )
2.5 Distribución de probabilidad para variables continuas
Las distribuciones de probabilidad de variable continua se definen por medio de una función y = f(x)
que se llama función de probabilidad o función de densidad. Ha de ser f(x) ≥ 0 para todo x.
pág. 52
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Las probabilidades vienen dadas por el área bajo la curva. Por tanto, el área encerrada bajo la totalidad
de la curva es 1. Es decir, tomamos como unidad el área bajo la curva completa.
La curva normal tiene forma de campana y un solo pico en el centro de la distribución. De esta manera,
la media aritmética, la mediana y la moda de la distribución son iguales y se localizan en el pico. Así, la
mitad del área bajo la curva se encuentra a la derecha de este punto central y la otra mitad está a la
izquierda de dicho punto. La distribución de probabilidad normal es simétrica alrededor de su media. La
curva normal desciende suavemente en ambas direcciones a partir del valor central. Es asintótica, lo que
quiere decir que la curva se acerca cada vez más al eje X, pero jamás llega a tocarlo. Es decir, las
“colas” de la curva se extienden de manera indefinida en ambas direcciones.
La curva es simétrica
Media
Colas
pág. 53
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.9 0.00005 0.00005 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.00003
-3.8 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.00005
-3.7 0.00011 0.00010 0.00010 0.00010 0.00009 0.00009 0.00008 0.00008 0.00008 0.00008
-3.6 0.00016 0.00015 0.00015 0.00014 0.00014 0.00013 0.00013 0.00012 0.00012 0.00011
-3.5 0.00023 0.00022 0.00022 0.00021 0.00020 0.00019 0.00019 0.00018 0.00017 0.00017
-3.4 0.00034 0.00032 0.00031 0.00030 0.00029 0.00028 0.00027 0.00026 0.00025 0.00024
-3.3 0.00048 0.00047 0.00045 0.00043 0.00042 0.00040 0.00039 0.00038 0.00036 0.00035
-3.2 0.00069 0.00066 0.00064 0.00062 0.00060 0.00058 0.00056 0.00054 0.00052 0.00050
-3.1 0.00097 0.00094 0.00090 0.00087 0.00084 0.00082 0.00079 0.00076 0.00074 0.00071
-3 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.00100
-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139
-2.8 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193
-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264
-2.6 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357
-2.5 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480
-2.4 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639
-2.3 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842
-2.2 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101
-2.1 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426
-2 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.01970 0.01923 0.01876 0.01831
Estadístico de Prueba:
x −μ
Z=
σ
se distribuye según una normal de media 0 y desviación estándar 1, i.e.: Z ∼ N(0,1) , que es la
distribución llamada normal estándar o tipificada. De esta manera, un valor Z mide la distancia entre un
valor especificado de X y la media aritmética, en las unidades de la desviación estándar. Al determinar
el valor Z utilizando la expresión anterior, es posible encontrar el área de probabilidad bajo cualquier
curva normal haciendo referencia a la distribución normal estándar en las tablas correspondientes.
pág. 54
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 55
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 56
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #50: En una ciudad se estima que la temperatura máxima en el mes de junio sigue una
distribución normal, con media 23° y desviación típica 5°. Calcular la probabilidad y el número de días
del mes en los que se espera alcanzar máximas entre 21° y 27°.
x−μ 21−23 −2
Z 1= = = =−0.4
σ 5 5
x−μ 27−23 4
Z 2= = = =0.8
σ 5 5
La probabilidad y el número de días del mes en los que se espera alcanzar máximas entre 21° y 27°, es
de 44.36% y 30*(0.4436) =13.3≈13 días.
pág. 57
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #51: La media de los pesos de 500 estudiantes de un Instituto es 70 kg y la desviación típica 3
kg. Suponiendo que los pesos se distribuyen normalmente, hallar cuántos estudiantes pesan:
a) Entre 60 kg y 65 kg.
b) Más de 90 kg.
c) Menos de 64 kg.
d) 64 kg o más.
a) Entre 60 kg y 65 kg:
x−μ 60−70 −10
Z 1= = = =−3.33
σ 3 3
x−μ 65−70 −5
Z 2= = = =−1.66
σ 3 3
pág. 58
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
b) Más de 90 kg:
x −μ 90−70 20
Z= = = =6.66
σ 3 3
c) Menos de 64 kg:
x −μ 64−70 −6
Z= = = =−2
σ 3 3
pág. 59
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
d) 64 kg o más:
x −μ 64−70 −6
Z= = = =−2
σ 3 3
pág. 60
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Distribución Chi-cuadrada ꭓ2
La distribución de chi-cuadrada es una distribución continua que se especifica por los grados de libertad
y el parámetro de no centralidad. La distribución es positivamente asimétrica, pero la asimetría
disminuye al aumentar los grados de libertad.
a) Comprobar qué tan bien se ajusta una muestra a una distribución teórica. Por ejemplo, puede
utilizar una prueba de bondad de ajuste de chi-cuadrada para determinar si los datos de la
muestra se ajustan a una distribución de Poisson.
b) Comprobar la independencia de las variables categóricas. Por ejemplo, un fabricante desea saber
si la ocurrencia de cuatro tipos de defectos (espárrago faltante, abrazadera rota, sujetador flojo y
sello con fugas) está relacionada con los turnos (diurno, vespertino, nocturno).
Cuando los grados de libertad son 30 o más, la distribución de chi-cuadrada puede aproximarse
razonablemente con una distribución normal, como se ilustra en las siguientes gráficas:
Estadístico de Prueba:
( n−1 )∗s 2
2=
σ2
pág. 61
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #52: Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos
en una ciudad grande forman una distribución normal con una desviación estándar =1 minuto. Si se elige
al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que
2.
Gráfica de distribución
Chi-cuadrada, df=16
0.08
0.07
0.06
0.05
Densidad
0.04
0.03
0.02
0.01
0.01
0.00
0 32.00
X
El valor de tabla donde encontramos 32 con 16 grados de libertad es de 0.01 por tanto, la probabilidad
de que la varianza muestral sea mayor que 2 es de 1%.
Distribución Binomial
Una distribución binomial B (n, p) se puede aproximar por una distribución normal, siempre que n sea
grande y p no esté muy próxima a 0 ó 1. La aproximación consiste en utilizar una distribución normal
con la misma media y desviación típica de la distribución binomial.
En la práctica se utiliza la aproximación cuando: n>30, np>5, nq>5. En cuyo caso: x= B(n,p) se puede
aproximar a N(μ=np, σ = npq )
Ejemplo #53: La probabilidad de que un paciente se recupere de una rara enfermedad de la sangre es de
0.4. Si se sabe que 100 personas han contraído esta enfermedad, ¿Cuál es la probabilidad de que:
a) al menos 30 sobrevivan?
b) más de 46 sobrevivan?
c) menos de 50 sobrevivan?
μ=n∗p=100∗0.4=40
pág. 62
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
σ =√ n∗p∗q=√ 100∗0.4∗0.6=4.8989
2 2
a) al menos 30 sobrevivan:
x −μ 30−40 −10
Z= = = =−2.04
σ 4.8989 4.8989
b) más de 46 sobrevivan:
x −μ 46−40 6
Z= = = =1.22
σ 4.8989 4.8989
pág. 63
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
c) menos de 50 sobrevivan:
x −μ 50−40 10
Z= = = =2.04
σ 4.8989 4.8989
pág. 64
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
La inferencia estadística tiene que ver con toma de decisiones sobre una población, con base en la
información contenida en una muestra aleatoria de ésta. La media muestral es una estadística; esto es,
una variable aleatoria que depende de los resultados obtenidos en cada muestra en particular. Dado que
una estadística es una variable aleatoria, entonces se tiene una distribución de probabilidad.
Una población está formada por la totalidad de las observaciones en las cuales se tiene cierto observa.
Una muestra es un subconjunto de observaciones seleccionadas de una población. Muestras Aleatorias:
Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras por muchas
razones; una enumeración completa de la población, llamada censo, puede ser económicamente
imposible, o no se cuenta con el tiempo suficiente. Los tipos más comunes de técnicas de muestreo
aleatorios son el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y
el muestreo sistemático. Si una muestra aleatoria se elige de tal forma que todos los elementos de la
población tengan la misma probabilidad de ser seleccionados, la llamamos muestra aleatoria simple.
El muestreo estratificado requiere de separar a la población según grupos que no se traslapen llamados
estratos, y de elegir después una muestra aleatoria simple en cada estrato. La información de las
muestras aleatorias simples de cada estrato constituiría entonces una muestra global. El muestreo por
conglomerados requiere de elegir una muestra aleatoria simple de unidades heterogéneas entre sí de la
población llamadas conglomerados. Cada elemento de la población pertenece exactamente a un
conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogéneos o disímiles.
El muestreo sistemático es una técnica de muestreo que requiere de una selección aleatoria inicial de
observaciones seguida de otra selección de observaciones obtenida usando algún sistema o regla.
pág. 65
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
σ
σ x=
√n
Donde σ es la desviación estándar de la distribución de la población y σ x es la media de población.
Si x1, x2, …, xn es una muestra aleatoria de tamaño n tomada de una población (finita o infinita) con
media y varianza infinita ², y si se tiene una media muestral, entonces la forma del límite de la
distribución es:
x −μ
Z=
σ
√n
Ejemplo #54: Una compañía electrónica fabrica resistores que tienen una resistencia promedio de 100 y
una desviación estándar de 10 . La distribución de la resistencia es normal. Encuéntrese la
probabilidad de que, al tomar una muestra de 25 resistores, la resistencia promedio de éstos será menor
que 95 .
Solución:
x −μ 95−100
Z= = =−2.5
σ 10
√n √ 25
4) Calcular lo que se pide: P ( x < 95) = P (Z < -2.5) = 0.0062 (Valor tomado de la tabla de distribución
normal estándar acumulada).
pág. 66
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
5) Dar conclusión (es): “La probabilidad de que la resistencia promedio de los 25 resistores sea menor
que 95 es de 0.62%”.
Ejemplo #55: Se fabrica tubería de PVC con un diámetro promedio de 1.01 pulgadas y una desviación
estándar de 0.003 pulgadas. Encuentra la probabilidad de que, en una muestra aleatoria de 9 secciones
de tubería, el diámetro promedio de la muestra sea mayor que 1.009 y menor que 1.012 pulgadas.
Solución:
x −μ 1.009−1.01
Z= = =−1
σ 0.003
√n √9
x −μ 1.012−1.01
Z= = =2
σ 0.003
√n √9
4) Calcular lo que se pide: P (1.009 ≤ x ≤ 1.012) = P (-1 ≤ Z ≤ 2) = (0.97725 – (1 – 0.84134)) = 0.81859
(Valores tomado de la tabla de distribución normal estándar acumulada).
5) Dar conclusión (es): “La probabilidad de que, en una muestra aleatoria de 9 secciones de tubería, el
diámetro promedio de la muestra sea mayor que 1.009 y menor que 1.012 pulgadas es de 81.859%”.
Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviación estándar 1 y la
segunda con media 2 y desviación estándar 2, Más aún, se elige una muestra aleatoria de tamaño n 1 de
la primera población y una muestra independiente aleatoria de tamaño n 2 de la segunda población; se
calcula la media muestral para cada muestra y la diferencia entre dichas medias.
La colección de todas esas diferencias se llama distribución muestral de las diferencias entre medias o la
distribución muestral del estadístico x 1−x 2. La distribución es aproximadamente normal para n 1≥30 y
n2≥30. Si las poblaciones son normales, entonces la distribución muestral de medias es normal sin
importar los tamaños de las muestras.
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de medias es:
( x1−x 2 ) −( μ1−μ2 )
Z=
√
2 2
σ1 σ2
+
n1 n2
pág. 67
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #56: En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una
escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para
niños como para niñas los pesos siguen una distribución normal. El promedio de los pesos de todos los
niños de sexto grado de esa escuela es de 100 libras y su desviación estándar es de 14.142, mientras que
el promedio de los pesos de todas las niñas del sexto grado de esa escuela es de 85 libras y su desviación
estándar es de 12.247 libras. Si x 1 representa el promedio de los pesos de 20 niños y x 2 es el promedio de
los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio de los pesos de los
20 niños sea al menos 20 libras más grande que el de las 25 niñas.
Solución:
√ √
2 2 2 2
σ σ 14.142 12.247
1
+
2
+
n1 n2 20 25
Ejemplo #57: Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a
dos compañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una desviación
estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años con una desviación
estándar de 0.7. Determine la probabilidad de que una muestra aleatoria de 34 tubos de la compañía A
tenga una vida promedio de al menos un año más que la de una muestra aleatoria de 40 tubos de la
compañía B.
Solución:
1) Identificar los datos: 1 = 7.2; 1 = 0.8; n1 = 34; 2 = 6.7; 2 = 0.7; n2 = 40; x 1= ?; x 2 = ?; x 1−x 2 = 1
(1 - 2) = 0.5.
2) Analizar qué tipo de distribución se requiere (según los datos de la muestra): Distribución muestral de
la diferencia de medias.
3) Sustitución de datos:
pág. 68
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
√ √
2 2 2 2
σ1 σ2 0.8 0.7
+ +
n1 n2 34 40
4) Calcular lo que se pide: P ( x 1−x 2 ≥ 1) = P (Z ≥ 2.83) = 0.0023
5) Dar conclusión (es): la probabilidad de que una muestra aleatoria de 34 tubos de la compañía A tenga
una vida promedio de al menos un año más que la de una muestra aleatoria de 40 tubos de la compañía
B es de 0.23%.
Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos
investigar una proporción, la distribución muestral de proporciones es la adecuada para ello, esta
distribución se genera al extraer las muestras de la población, para ello se calcula el estadístico
proporción: (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la
muestra) en lugar del estadístico media.
Una población binomial está estrechamente relacionada con la distribución muestral de proporciones;
una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de
proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un
experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes
a la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que np
≥ 5 y n(1-p) ≥ 5.
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de la proporción es:
x−n∗Po
Z=
√n∗Po∗(1−P¿¿ o)¿
Ejemplo #58: Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarros.
Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la
muestra de la gente que fuma cigarrillos sea menor que 0.55.
Solución:
x−n∗P o
Z=
440−800∗0.6
√n∗Po∗(1−P¿¿ o)= 800∗0.6∗0.4 =−2.886751 ¿
√
pág. 69
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
4) Calcular lo que se pide: P (p < 0.55) = P (Z < -2.88) = 0.002. (Valor tomado de la tabla de
distribución normal estándar acumulada).
5) Dar conclusión (es): “La probabilidad de que la proporción de la muestra de la gente que fuma
cigarrillos sea menor que 0.55 es del 0.20%”
Ejemplo #59: Se sabe que la verdadera proporción de los componentes defectuosos fabricadas por una
firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga:
Solución:
1) Identificar los datos: Po = 0.04; x/n = 0.03; n = 60; x=1.8; Po = 0.04; x/n = 0.01; n = 60; x=0.6; Po =
0.04; x/n = 0.05; n = 60; x=3
2) Analizar qué tipo de distribución se requiere (según los datos de la muestra): Distribución muestral de
la proporción.
3) Sustitución de datos:
x −n∗P o
Z=
1.8−60∗0.04
√n∗Po∗(1−P¿¿ o)= 60∗0.04∗0.96 =−0.395284 ¿
√
x −n∗P o
Z=
0.6−60∗0.04
√n∗Po∗(1−P¿¿ o)= 60∗0.04∗0.96 =−1.185854 ¿
√
x −n∗P o
Z=
3−60∗0.04
√n∗Po∗(1−P¿¿ o)= 60∗0.04∗0.96 =0.395284 ¿
√
4) Calcular lo que se pide: P (p < 0.03) = P (Z < -0.39) = 0.3483. P (0.01 < p < 0.05) = P (-1.18 < Z <
0.39) = 0.5327. Valor tomado de la tabla de distribución normal estándar acumulada).
5) Dar conclusión (es): “La probabilidad de que la proporción de la muestra sea menos del 3% de los
componentes defectuosos es del 34.83% y de que la proporción de la muestra sea menos del 1% y no
más de 5% de los componentes defectuosos es del 53.27%”.
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones
muestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para
tamaños de muestra grande (n1p1 ≥ 5, n1q1 ≥ 5, n2p2 ≥ 5 y n2q2 ≥ 5). Entonces p1 y p2 tienen distribuciones
muestrales aproximadamente normales, así que su diferencia p 1-p2 también tiene una distribución
muestral aproximadamente normal.
pág. 70
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de proporciones
es:
(P ¿ ¿ 1−P2 )
Z=( p ¿ ¿1−p 2)− ¿¿
√
P 1∗Q1 P2∗Q2
n1
+
n2
Ejemplo #60: Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren en sus
opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se cree que
el 12% de los hombres adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres
adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre
la promulgación de la pena de muerte.
Determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3% mayor que el de las
mujeres.
Determine la probabilidad de que el porcentaje de hombres a favor sea al menos 1% que el de las
mujeres, pero no más del 12%.
Solución:
1) Identificar los datos: P1 = 12%; Q1 = 88%; n1 = 100; P2 = 10%; Q2 = 90%; n2 = 100; p1 = ?; p2 = ?; (p1-
p2) = 3%; 1%; 12%.
2) Analizar qué tipo de distribución se requiere (según los datos de la muestra): Distribución muestral de
la diferencia de proporciones.
3) Sustitución de datos:
(P ¿ ¿ 1−P2 ) 0.03−(0.12−0.1)
Z=( p ¿ ¿1−p 2)− = =0.226107 ¿ ¿
√ P 1∗Q1 P2∗Q2
n1
+
n2 √ 0.12∗0.88 0.1∗0.9
100
+
100
(P ¿ ¿ 1−P2 ) 0.01−(0.12−0.1)
Z=( p ¿ ¿1−p 2)− = =−0.226107 ¿ ¿
√ P 1∗Q1 P2∗Q2
n1
+
n2 √ 0.12∗0.88 0.1∗0.9
100
+
100
(P ¿ ¿ 1−P2 ) 0.01−(0.12−0.1)
Z=( p ¿ ¿1−p 2)− = =2.261078 ¿ ¿
√ P 1∗Q1 P2∗Q2
n1
+
n2 √ 0.12∗0.88 0.1∗0.9
100
+
100
4) Calcular lo que se pide: P (p ≥ 0.03) = P (Z ≥ 0.22) = 0.4129. P (0.01 < p < 0.12) = P (-0.22 < Z <
2.26) = 0.5752. Valores tomados de la tabla de distribución normal estándar acumulada).
pág. 71
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
5) Dar conclusión (es): “La probabilidad de que el porcentaje de hombres a favor sea al menos 3%
mayor que el de las mujeres es del 41.29% y probabilidad de que el porcentaje de hombres a favor sea al
menos 1% que el de las mujeres, pero no más del 12% es del 57.52%”.
Una distribución para el caso en que ² sea desconocido y se pueda reemplazar por un estimativo, tal
como s². Tal distribución es la distribución t. La función de distribución no puede calcularse en forma
analítica; sin embargo, ha sido tabulada para diferentes valores de la probabilidad acumulada, y para
varios grados de libertad. Como la distribución es simétrica, solamente se presentan probabilidades
acumuladas para valores positivos de t (t≥0).
Los valores que se presentan en los encabezamientos de las columnas de la tabla corresponden a las
probabilidades de exceder los respectivos valores de t, es decir, presentan las colas a la derecha de los
valores respectivos de t.
x−μ
t=
s
√n
Ejemplo #61: Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso
en lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma una muestra
de 25 lotes cada mes. Si el valor de t calculado cae entre –t 0.05 y t0.05, queda satisfecho con su afirmación.
¿Qué conclusión extraería de una muestra que tiene una media de 518 gramos por milímetro y una
desviación estándar de 40 gramos? Suponga que la distribución de rendimientos es aproximadamente
normal.
Solución:
x−μ 518−500
t= = =2.25
s 40
√n √25
pág. 72
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
T, df=24
0.4
0.3
Densidad
0.2
0.1
0.05 0.05
0.0
-1.711 0 1.711
X
Solución:
x−μ 42.5−40
t= = =14.90
s 0.75
√n √ 20
pág. 73
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
T, df=20
0.4
0.3
Densidad
0.2
0.1
0.05 0.05
0.0
-1.725 0 1.725
X
Distribución F (Fisher)
La necesidad de disponer de métodos estadísticos para comparar las varianzas de dos poblaciones es
evidente a partir del análisis de una sola población. Frecuentemente se desea comparar la precisión de un
instrumento de medición con la de otro, la estabilidad de un proceso de manufactura con la de otro o
hasta la forma en que varía el procedimiento para calificar de un profesor universitario con la de otro.
Intuitivamente, podríamos comparar las varianzas de dos poblaciones, σ 21 y σ22, utilizando la razón de
las varianzas muestrales s21/s22. Si s21/s22 es casi igual a 1, se tendrá poca evidencia para indicar que s 21 y
s22 no son iguales. Por otra parte, un valor muy grande o muy pequeño para s 21/s22, proporcionará
evidencia de una diferencia en las varianzas de las poblaciones.
La distribución F tiene una apariencia muy similar a la distribución ji-cuadrada; sin embargo, se
encuentra centrada respecto a 1, y los dos parámetros v 1 y v2 proporcionan una flexibilidad adicional con
respecto a la forma de la distribución. Si s21 y s22 son las varianzas muestrales independientes de tamaño
n1 y n2 tomadas de poblaciones normales con varianzas 21 y 22, respectivamente, entonces:
2
s1
2
σ1
F=
s 22
2
σ2
pág. 74
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Para esta distribución nos limitaremos a encontrar valores de tabla, dado que los problemas aplicados se
encuentran en los intervalos de confianza y pruebas de hipótesis.
Gráfica de distribución
F, df1=4, df2=29
0.8
0.7
0.6
0.5
Densidad
0.4
0.3
0.2
0.1
0.25
0.0
0 1.427
X
f 0.25 ,4 ,9=1.43
Gráfica de distribución
F, df1=15, df2=10
0.8
0.7
0.6
0.5
Densidad
0.4
0.3
0.2 0.05
0.1
0.0
0 0.3931
X
1 1
f 0.95 ,15 ,10= = =0.3931
f 0.05 ,10 ,15 2.5437
pág. 75
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
F, df1=8, df2=6
0.7
0.6
0.5
Densidad
0.4
0.3
0.2
0.1
0.95
0.0
00.2793
X
1 1
f 0.95 ,8 , 6= = =0.2792
f 0.05 , 8 ,6 3.5805
Gráfica de distribución
F, df1=24, df2=24
1.2
1.0
0.8
Densidad
0.6
0.4
0.1
0.2
0.0
0 0.5876
X
1 1
f 0.90 ,24 , 24= = =0.5875
f 0.10 , 24 ,24 1.7018
pág. 76
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Al iniciar cualquier investigación, la primera pregunta que surge es: ¿de qué tamaño debe ser la o las
muestras? La respuesta a esta pregunta la veremos en esta sección, con conceptos específicos para cada
tipo de estimación.
¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la media
poblacional? La respuesta depende del error estándar de la media, si este fuera cero, entonces se
necesitaría una sola media que será igual necesariamente a la media poblacional desconocida μ, porque
σ = 0. Este caso extremo no se encuentra en la práctica, pero refuerza el hecho de que mientras menor
sea el error estándar de la media, menor es el tamaño de muestra necesario para lograr un cierto grado de
precisión.
( )
2
Z α ∗σ
2
n=
ε
Ejemplo #64: Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado de
Maryland. Un estudio anterior de diez ciervos cazados mostró que la desviación estándar de sus pesos es
de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el 95% de confianza de
que el error de estimación es a lo más de 4 libras?
Solución:
( )
2
Z α ∗σ
n= 2
ε (
=
1.96∗12.2 2
4 )
=35.7364 ≅ 36
Se desea saber qué tan grande se requiere que sea una muestra para asegurar que el error al estimar P sea
menor que una cantidad específica.
2
Z ∗p∗q
n= 2
ε
Esta fórmula está algo engañosa, pues debemos utilizar p para determinar el tamaño de la muestra, pero
p se calcula a partir de la muestra. Existen ocasiones en las cuales se tiene una idea del comportamiento
de la proporción de la población y ese valor se puede sustituir en la fórmula, pero si no se sabe nada
referente a esa proporción entonces se tienen dos opciones: Tomar una muestra preliminar mayor o igual
a 30 para proporcionar una estimación de P. Después con el uso de la fórmula se podría determinar de
pág. 77
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
forma aproximada cuántas observaciones se necesitan para proporcionar el grado de precisión que se
desea.
Tomar el valor de p como 0.5 ya que sustituyendo este en la fórmula se obtiene el tamaño de muestra
mayor posible.
Ejemplo #65: Se desconoce el valor de P, por lo que se utilizarán diferentes valores y se sustituirán en la
fórmula para observar los diferentes tamaños de muestras. El nivel de confianza que se utilizará es del
95% con un error de estimación de 0.30.
2 2
Z ∗p∗q 1.96 ∗0.5∗0.5
n= 2
= 2
=10.67
ε 0.3
En el caso de que se tenga una población finita y un muestreo sin reemplazo, el tamaño de la muestra se
convierte en:
2
Z ∗p∗q∗N
n= 2 2
ε ∗( N −1 )+ Z ∗p∗q
Ejemplo #66: De una población de 278 empresas se desea calcular un tamaño de muestras representativo
para realizar cierto estudio, tomando en cuenta un error máximo del 10% y un nivel de confianza del
95%.
2 2
Z ∗p∗q∗N 1.96 ∗0.5∗0.5∗278
n= 2 2
= 2 2
=71.57 ≅ 72
ε ∗( N −1 )+ Z ∗p∗q 0.1 ∗277+1.96 ∗0.5∗0.5
Un estimado puntual, por ser un sólo número, no proporciona por sí mismo información alguna sobre la
precisión y confiabilidad de la estimación. Debido a la variabilidad de la muestra, nunca se tendrá el
caso de que x = μ. El estimado puntual nada dice sobre lo cercano que esta de m. Una alternativa para
reportar un solo valor del parámetro que se esté estimando es calcular e informar todo un intervalo de
valores factibles, un estimado de intervalo o intervalo de confianza (IC). Un intervalo de confianza se
calcula siempre seleccionando primero un nivel de confianza, que es una medida del grado de fiabilidad
en el intervalo.
Un nivel de confianza de 95% implica que 95% de todas las muestras daría lugar a un intervalo que
incluye μ o cualquier otro parámetro que se esté estimando, y sólo 5% de las muestras producirá un
intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro
que se estima está dentro del intervalo.
pág. 78
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Insesgado. - Se dice que un estimador puntual θ^ es un estimador insesgado de θ si (θ^ )= θ, para todo
valor posible de θ. En otras palabras, un estimador insesgado es aquel para el cual la media de la
distribución muestral es el parámetro estimado. Si se usa la media muestral x para estimar la media
poblacional μ, se sabe que la μx = μ, por lo tanto, la media es un estimador insesgado.
Eficiente o con varianza mínima. - Suponga que θ^ 11 y θ^ 2 son dos estimadores insesgados de θ. Entonces,
aun cuando la distribución de cada estimador esté centrada en el valor verdadero de θ, las dispersiones
de las distribuciones alrededor del valor verdadero pueden ser diferentes. Entre todos los estimadores de
θ que son insesgados, seleccione al que tenga varianza mínima. El θ^ resultante recibe el nombre de
estimador insesgado con varianza mínima de θ.
La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión acerca de
uno o más parámetros (características poblacionales). Para hacerlo, se requiere que un investigador
obtenga datos muestrales de cada una de las poblaciones en estudio. Entonces, las conclusiones pueden
estar basadas en los valores calculados de varias cantidades muestrales. Cuando se analizan conceptos
generales y métodos de inferencia es conveniente tener un símbolo genérico para el parámetro de
interés. Se utilizará la letra griega θ para este propósito. El objetivo de la estimación puntual es
seleccionar sólo un número, basados en datos de la muestra, que represente el valor más razonable de θ.
El símbolo θ^ (theta crestada) suele utilizarse para representar el estimador de θ y la estimación puntual
resultante de una muestra dada.
Con base a la distribución muestral de medias que se generó en el tema anterior, la fórmula para el
cálculo de probabilidad es la siguiente:
pág. 79
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
x −μ
Z=
σ
√n
Como en este caso no conocemos el parámetro y lo queremos estimar por medio de la media de la
muestra, sólo se despejará μ de la formula anterior, quedando lo siguiente:
( )
Z α ∗σ Z α ∗σ
2 2
P x− ≤ μ≤x+ =( 1−α ) %
√n √n
Si los intervalos son unilaterales, estos se dividen en unilateral derecho o inferior y α no se divide entre
2:
(
P x−
Z α∗σ
√n )
≤ μ =( 1−α ) %
(
P μ ≤ x+
Z α∗σ
√n )=( 1−α ) %
Cuando no se especifique que tipo de intervalo se pida, se entenderá que se pide el intervalo completo.
Ejemplo #67: Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una
muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los
intervalos de confianza de 95% y 99% para la concentración media de zinc en el río. Suponga que la
desviación estándar de la población es 0.3.
Solución:
1) Establecemos Datos:
( )
Z α ∗σ Z α ∗σ
2 2
P x− ≤ μ≤x+ =( 1−α ) %
√n √n
pág. 80
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
( )
Z α ∗σ Z α ∗σ
2 2
P x− ≤ μ≤x+ =( 1−α ) %
√ n √n
(
P 2.6−
1.96∗0.3
√ 36
≤ μ≤ 2.6+
1.96∗0.3
√36 )
=95 % → P ( 2.502≤ μ ≤2.698 )=95 %
( )
Z α ∗σ Z α ∗σ
2 2
P x− ≤ μ≤x+ =( 1−α ) %
√n √n
(
P 2.6−
2.58∗0.3
√ 36
≤ μ≤ 2.6+
2.58∗0.3
√36 )
=99 % → P ( 2.471≤ μ ≤2.729 )=99 %
4) Emitimos Conclusión: “Con un nivel de confianza del 95% la concentración media de zinc en el río
estará entre 2.502 y 2.698 gramos y con el 99% estará entre 2.471 y 2.729 gramos”.
Ejemplo #68: Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida
de forma normal con una desviación estándar de 40 horas. Si una muestra de 30 focos tiene una duración
promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la población de
todos los focos que produce esta empresa.
Solución:
1) Establecemos Datos:
( )
Z α ∗σ Z α ∗σ
2 2
P x− ≤ μ≤x+ =( 1−α ) %
√n √n
pág. 81
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
( )
Z α ∗σ Z α ∗σ
2 2
P x− ≤ μ≤x+ =( 1−α ) %
√n √n
(
P 780−
2.05∗40
√ 30
≤ μ≤ 780+
2.05∗40
√30 )
=96 % → P ( 765.0289 ≤ μ ≤ 794.9710 )=96 %
4) Emitimos Conclusión: “Con un nivel de confianza del 96% la media de la población de todos los
focos que produce esta empresa estará entre 764.955 y 795.044 horas”.
pág. 82
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Si x y s son la media y la desviación estándar de una muestra aleatoria de una población normal con
varianza desconocida, un intervalo de confianza de (1-α)100% para μ es:
( )
t α ∗s t α ∗s
,v ,v
2 2
P x− ≤ μ ≤ x+ = (1−α ) %
√n √n
Si los intervalos son unilaterales, estos se dividen en unilateral derecho e izquierdo y α no se divide entre
2:
(
P x−
t α ,v ∗s
√n )
≤ μ =( 1−α ) %
(
P μ ≤ x+
t α ,v ∗s
√n )
=( 1−α ) %
Cuando no se especifique que tipo de intervalo se pida, se entenderá que se pide el intervalo completo.
Ejemplo #69: El contenido de siete contenedores similares de ácido sulfúrico son 9.8, 10.2, 10.4, 9.8,
10.0, 10.2, y 9.6 litros. Encuentre un intervalo de confianza del 95% para la media de todos los
contenedores si se supone una distribución aproximadamente normal.
Solución:
1) Establecemos Datos:
( )
t α ∗s t α ∗s
,v ,v
2 2
P x− ≤ μ ≤ x+ = (1−α ) %
√n √n
pág. 83
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
( )
t α ∗s t α ∗s
,v ,v
2 2
P x− ≤ μ ≤ x+ = (1−α ) %
√n √n
(
P 10−
2.447∗0.2828
√7
≤ μ ≤ 10+
2.447∗0.2828
√7 )
=95 % → P ( 9.7384 ≤ μ ≤ 10.2615 )=95 %
4) Emitimos Conclusión: “Con un nivel de confianza del 95% la media de todos los contenedores de
ácido sulfúrico estará entre 9.7384 y 10.2615 litros”.
Ejemplo#70: Un artículo publicado en el Journal of Testing and Evaluation presenta las siguientes 20
mediciones del tiempo de combustión residual en segundos de especímenes tratados de ropa de dormir
para niños: 9.85, 9.93, 9.75, 9.77, 9.67, 9.87, 9.67, 9.94, 9.85, 9.75, 9.83, 9.92, 9.74, 9.99, 9.88, 9.95,
9.95, 9.93, 9.92, 9.89. Se desea encontrar un nivel de confianza del 95% para el tiempo de combustión
residual promedio. Supóngase que el tiempo de combustión residual sigue una distribución normal.
Solución:
1) Establecemos Datos:
( )
t α ∗s t α ∗s
,v ,v
2 2
P x− ≤ μ ≤ x+ = (1−α ) %
√n √n
( )
t α ∗s t α ∗s
,v ,v
2 2
P x− ≤ μ ≤ x+ = (1−α ) %
√n √n
(
P 9.8525−
2.093∗0.0964
√20
≤ μ ≤ 9.8525+
2.093∗0.0964
√20
=95 %
)
P ( 9.8073 ≤ μ ≤ 9.8976 )=95 %
4) Emitimos Conclusión: “Con un nivel de confianza del 95% el tiempo de combustión residual
promedio estará entre 9.8073 y 9.8976 segundos”.
pág. 84
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Si se tienen dos poblaciones con medias μ1 y μ2 y varianzas σ21 y σ22, respectivamente, un estimador
puntual de la diferencia entre μ1 y μ2 está dado por la estadística x 1−x 2. Por tanto, para obtener una
estimación puntual de μ1 – μ2, se seleccionan dos muestras aleatorias independientes, una de cada
población, de tamaño n1 y n2, se calcula la diferencia x 1−x 2, de las medias muestrales.
P¿
Si los intervalos son unilaterales, estos se dividen en unilateral derecho e izquierdo y α no se divide entre
2:
P¿
P¿
Cuando no se especifique que tipo de intervalo se pida, se entenderá que se pide el intervalo completo.
Ejemplo #71: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se mide
el rendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el motor tipo A y 75
con el motor tipo B. La gasolina que se utiliza y las demás condiciones se mantienen constantes. El
rendimiento promedio de gasolina para el motor A es de 36 millas por galón y el promedio para el motor
B es 24 millas por galón. Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real
para los motores A y B. Suponga que las desviaciones estándar poblacionales son 6 y 8 para los motores
A y B respectivamente.
Solución:
1) Establecemos Datos:
x 1 = 36 σ1 = 6 n1 = 50 1-α = 96%
x 2 = 24 σ2= 8 n2= 75
P¿
pág. 85
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
P¿
( √ √ )
2 2 2 2
6 8 6 8
P ( 36−24 )−2.06∗ + ≤ μ≤ ( 36−24 )+ 2.06∗ + =96 %
50 75 50 75
P ( 9.4160 ≤ μ ≤ 14.5839 )=96 %
4) Emitimos Conclusión: “Con un nivel de confianza del 96% la diferencia del rendimiento de gasolina
promedio estará entre 9.416 y 14.583 millas por galón”.
Si, x 1 y x 2, s21 y s22 son las medias y las varianzas de dos muestras aleatorias de tamaño n 1 y n2,
respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas
pero iguales, entonces un intervalo de confianza del 100(1-α) por ciento para la diferencia entre medias
es:
S p=
√
2 s 21∗( n1−1 ) + s22∗( n2−1 )
n1+ n2−2
P¿
Si los intervalos son unilaterales, estos se dividen en unilateral derecho e izquierdo y α no se divide entre
2:
P¿
P¿
Cuando no se especifique que tipo de intervalo se pida, se entenderá que se pide el intervalo completo.
Ejemplo #72: Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en
cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican que el
mecanismo de hidratación del cemento queda bloqueado y esto permite que el agua ataque varias partes
de una estructura de cemento. Al tomar diez muestras de cemento estándar, se encontró que el peso
promedio de calcio es de 90 con una desviación estándar de 5; los resultados obtenidos con 15 muestras
de cemento contaminado con plomo fueron de 87 en promedio con una desviación estándar de 4.
pág. 86
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Supóngase que el porcentaje de peso de calcio está distribuido de manera normal. Encuéntrese un
intervalo de confianza del 95% para la diferencia entre medias de los dos tipos de cementos. Por otra
parte, supóngase que las dos poblaciones normales tienen la misma desviación estándar.
Solución:
1) Establecemos Datos:
x 1 = 90 s1 = 5 n1 = 10 1-α = 95%
x 2 = 87 s2= 4 n2= 15
S p=
√
2 s 21∗( n1−1 ) + s22∗( n2−1 )
n1+ n2−2
P¿
S p=
√
2 52∗(10−1 ) +4 2∗( 15−1 )
10+ 15−2
=4.4183
(
P ( 90−87 )−2.069∗4.4183∗
√ 1 1
+ ≤ ( μ1−μ2 ) ≤ ( 90−87 ) +2.069∗4.4183∗
10 15
P (−0.7319 ≤ ( μ1−μ2 ) ≤ 6.7319 ) =95 %
1 1
+
10 15
=95 %
√ )
4) Emitimos Conclusión: “Con un nivel de confianza del 95% la diferencia promedio de las medias está
entre -0.73202 y 6.73202 y como este intervalo incluye al cero no se puede determinar que haya una
diferencia entre estos dos cementos”
Consideremos ahora el problema de encontrar una estimación por intervalos de μ1-μ2 cuando no es
probable que las varianzas poblacionales desconocidas sean iguales. La estadística que se usa con más
frecuencia en este caso es:
pág. 87
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
P¿
( )
2 2 2
s1 s2
+
n1 n 2
v= −2
( ) ( )
2 2 2 2
s1 s2
n1 n2
+
n 1+1 n2 +1
Como v rara vez es número entero, lo redondeamos al número entero más cercano menor. Si los
intervalos son unilaterales, estos se dividen en unilateral derecho e izquierdo y α no se divide entre 2:
P¿
P¿
Ejemplo #73: El departamento de zoología de la Universidad de Virginia llevó a cabo un estudio para
estimar la diferencia en la cantidad de ortofósforo químico medido en dos estaciones diferentes del río
James. El ortofósforo se mide en miligramos por litro. Se reunieron 15 muestras de la estación 1 y se
obtuvo una media de 3.84 con una desviación estándar de 3.07 miligramos por litro, mientras que 12
muestras de la estación 2 tuvieron un contenido promedio de 1.49 con una desviación estándar 0.80
miligramos por litro. Encuentre un intervalo de confianza de 95% para la diferencia del contenido
promedio real de ortofósforo en estas dos estaciones, suponga que las observaciones vienen de
poblaciones normales con varianzas diferentes.
Solución:
1) Establecemos Datos:
pág. 88
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
( )
2 2 2
s1 s2
+
n1 n 2
v= −2
( ) ( )
2 2 2 2
s1 s2
n1 n2
+
n 1+1 n2 +1
P¿
( )
2 2 2
3.07 0.8
+
15 12
v= −2 ≈16.6659 ≈ 16
( ) ( )
2 2 2 2
3.07 0.8
15 12
+
15+1 12+1
( √ √ )
2 2 2 2
3.07 0.8 3.07 0.8
P ( 3.84−1.49 )−2.120∗ + ≤ ( μ 1−μ2 ) ≤ ( 3.84−1.49 ) −2.120∗ + =95 %
15 12 15 12
P ( 0.5996 ≤ ( μ1−μ2 ) ≤ 4.1003 ) =95 %
4) Emitimos Conclusión: “Con un nivel de confianza del 95% la diferencia del contenido promedio real
de ortofósforo en estas dos estaciones está entre 0.5996 y 4.1003 miligramos por litro”.
(
P P−Z α ⋅
2 √ P ⋅Q
n
≤ p ≤ P+ Z α ⋅
2
P ⋅Q
n
=(1−α )%
√ )
pág. 89
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Si los intervalos son unilaterales, estos se dividen en unilateral derecho o inferior y α no se divide entre
2:
(
P P−z α ⋅
√ P ⋅Q
n )
≤ p =( 1−α ) %
(
P p ≤ P+ z α ⋅
√ )
P ⋅Q
n
=( 1−α ) %
Cuando no se especifique que tipo de intervalo se pida, se entenderá que se pide el intervalo completo.
Solución:
1) Establecemos Datos:
(
P P−Z α ⋅
2 √ P ⋅Q
n
≤ p ≤ P+ Z α ⋅
2 √ )
P ⋅Q
n
=(1−α )%
(
P P−Z α ⋅
2 √ P ⋅Q
n
≤ p ≤ P+ Z α ⋅
2 √ )
P ⋅Q
n
=(1−α )%
( √ √ )
15 485 15 485
⋅ ⋅
15 500 500 15 500 500
P −1.645 ⋅ ≤ p≤ +1.645 ⋅ = 90 %
500 500 500 500
P ( 0.0174 ≤ p ≤ 0.0425 )=90 %
pág. 90
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
( √ √ )
15 485 15 485
⋅ ⋅
15 500 500 15 500 500
P −1.96 ⋅ ≤ p≤ +1.96 ⋅ =95 %
500 500 500 500
P ( 0.0150 ≤ p ≤ 0.0449 )=95 %
4) Emitimos Conclusión: “Con un nivel de confianza del 90% la proporción de reproductores que no
pasan las pruebas está entre 0.00174 y 0.0425 y con el 95% estará entre 0.0150 y 0.0449”.
Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones para la
estimación de las misma. Recordando la fórmula:
(P ¿ ¿ 1−P2 )
Z=( p ¿ ¿1−p 2)− ¿¿
√ P 1∗Q1 P2∗Q2
n1
+
n2
(
P ( P 1−P2 )−Z α ⋅
2 √ P1 ⋅Q1 P2 ⋅Q 2
n1
+
n2
≤ p1− p 2 ≤ ( P1−P2 ) + Z α ⋅
2 √
P1 ⋅Q1 P2 ⋅Q 2
n1
+
n2 )
=( 1−α ) %
Al igual que los otros intervalos, en este caso tenemos intervalos unilaterales inferior y superior en los
cuáles α no se divide entre 2:
(
P ( P 1−P2 )−Z α ⋅
√ P 1 ⋅Q1 P2 ⋅ Q2
n1
+
n2 )
≤ p1 −p 2 = (1−α ) %
(
P p1− p 2 ≤ ( P1−P2 ) + Z α ⋅
√ P 1 ⋅Q1 P2 ⋅Q2
n1
+
n2 )
=( 1−α ) %
Ejemplo #76: Se considera cierto cambio en un proceso de fabricación de partes componentes. Se toman
muestras del procedimiento existente y del nuevo para determinar si éste tiene como resultado una
mejoría. Si se encuentra que 75 de 1,500 artículos del procedimiento actual son defectuosos y 80 de
pág. 91
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
2,000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90%
para la diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo.
Solución:
1) Establecemos Datos:
(
P ( P 1−P2 )−Z α ⋅
2 √ P1 ⋅Q1 P2 ⋅Q 2
n1
+
n2 2√
≤ p1− p 2 ≤ ( P1−P2 ) + Z α ⋅
P1 ⋅Q1 P2 ⋅Q 2
n1
+
n2 )
=( 1−α ) %
(
P ( P 1−P2 )−Z α ⋅
2 √ P1 ⋅Q1 P2 ⋅Q 2
n1
+
n2 2√
≤ p1− p 2 ≤ ( P1−P2 ) + Z α ⋅
P1 ⋅Q1 P2 ⋅Q 2
n1
+
n2 )
=( 1−α ) %
(( √ √
75 1,425 80 1,920 75 1,425 80
⋅ ⋅ ⋅
P
75
−
80
1,500 2,000 )
−1.645 ⋅
1,500 1,500 2,000 2,000
1,500
+
2,000
≤ p1− p 2 ≤
75
−
80
1,500 2,000
+1.645 ⋅( 1,500
+ )
1,500 1,500 2,00
4) Emitimos Conclusión: “Con un nivel de confianza del 90% la diferencia real en la fracción de
defectuosos entre el proceso actual y el nuevo está entre -0.0017 y 0.0217 y como este intervalo incluye
al cero no existe razón para creer que los dos procesos sean diferentes”.
Si X1, X2, Xn es una muestra aleatoria de tamaño n tomada de una población normal, y si s² es la
varianza muestral, entonces s² es un estimador puntual razonable de la varianza poblacional σ². Por otra
pág. 92
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
parte, si la población es normal, la distribución muestral de la siguiente variable es una distribución ji-
cuadrado con n-1 grados de libertad.
2 ( n−1 ) ⋅ s 2
χ n−1 =
σ2
Por lo tanto, para obtener un intervalo de confianza del 100 (1-α) % para la varianza σ² nos basamos en
el estadístico s² y en la distribución chi cuadrado. Por lo tanto, tenemos la siguiente probabilidad:
( )
( n−1 ) ⋅ s 2 2 ( n−1 ) ⋅s 2
P 2
≤σ ≤ 2 = (1−α ) %
χα χ α
, n−1 1− ,n −1
2 2
Si los intervalos son unilaterales, estos se dividen en unilateral derecho o inferior y α no se divide entre
2:
P
(
( n−1 ) ⋅ s 2 2
χ 2α , n−1
≤σ = ( 1−α ) %
)
También está el unilateral izquierdo o superior y α no se divide entre 2:
(
( n−1 ) ⋅ s2
P σ ≤ 2 2
χ 1−α , n−1
= ( 1−α ) %
)
Cuando no se especifique que tipo de intervalo se pida, se entenderá que se pide el intervalo completo.
Ejemplo #77: Un proceso produce cierta clase de cojinetes de bola cuyo diámetro interior es de 3 cm. Se
seleccionan en forma aleatoria 12 de estos cojinetes y se miden sus diámetros interiores, y los valores
resultantes son los siguientes: 3.01, 3.05, 2.99, 2.99, 3.02, 3.00, 2.98, 2.99, 2.97, 2.97, 3.02 y 3.01.
Suponiendo que el diámetro es una variable aleatoria normal, determine un intervalo de confianza para
la varianza poblacional. Use un intervalo de confianza del 99%.
Solución:
1) Establecemos Datos:
pág. 93
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
( )
( n−1 ) ⋅ s 2 2 ( n−1 ) ⋅s 2
P 2
≤σ ≤ 2 = (1−α ) %
χα χ α
, n−1 1− ,n −1
2 2
( )
( n−1 ) ⋅ s 2 2 ( n−1 ) ⋅s 2
P 2
≤σ ≤ 2 = (1−α ) %
χα χ α
, n−1 1− ,n −1
2 2
P ( ( 12−1)26.757
⋅ ( 0.0005454 )
≤σ ≤
( 12−1 ) ⋅ ( 0.0005454 )
2.603
2
)=99 %
P ( 0.000224 ≤ σ 2 ≤ 0.002304 ) =99 %
4) Emitimos Conclusión: “Con un nivel de confianza del 99% la varianza poblacional del diámetro de
los cojinetes estará entre 0.000224 y 0.002304 centímetros”.
Supóngase que se tienen dos poblaciones normales e independientes con varianzas desconocidas σ21 y
σ22, respectivamente. De este par de poblaciones, se tienen disponibles dos muestras aleatorias de
tamaños n1 y n2, respectivamente, sean s21 y s22 las dos varianzas muestrales. Se desea conocer un
intervalo de confianza del 100(1-α) por ciento para el cociente de las dos varianzas, σ21 / σ22.
1
f α =
1− , n2−1 ,n1−1
2
fα
,n1−1 , n2−1
2
( )
2 2 2
s1 σ1 s1
P 2
⋅f α ≤ 2
≤ 2
⋅f α =( 1−α ) %
s2 1− ,n2−1 ,n1−1
2 σ2 s2 2
, n2 −1 , n1−1
Si los intervalos son unilaterales, estos se dividen en unilateral derecho o inferior y α no se divide entre
2:
pág. 94
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
( )
2 2
s1 σ1
P 2
⋅ f 1−α ,n −1 ,n −1 ≤ =( 1−α ) %
s2 2 1
σ 22
( )
2 2
σ1 s1
P ≤ ⋅ f α ,n −1 ,n −1 =( 1−α ) %
σ 22 s 22 2 1
1
f 1−α, n −1 ,n −1=
2 1
f α , n −1 , n −1
1 2
Cuando no se especifique que tipo de intervalo se pida, se entenderá que se pide el intervalo completo.
Ejemplo #78: Un fabricante de automóviles pone a prueba dos nuevos métodos de ensamblaje de
motores respecto al tiempo en minutos. El método 1 con 31 muestras obtuvo una varianza muestral de
50 minutos y el método 2 con 25 muestras obtuvo una varianza muestral de 24 minutos. Construya un
intervalo de confianza del 90% para el cociente de las varianzas.
Solución:
1) Establecemos Datos:
( )
2 2 2
s1 σ1 s1
P ⋅f α ≤ ≤ ⋅f α =( 1−α ) %
s 22 1− ,n2−1 ,n1−1
2 σ 22 s 22 2
, n2 −1 , n1−1
( )
2
50 σ 1 50
P ⋅0.5157 ≤ 2 ≤ ⋅1.887 =90 %
24 σ 2 24
( )
2
σ1
P 1.0743 ≤ ≤ 3.931 =90 %
σ 22
4) Emitimos Conclusión: “Con un nivel de confianza del 90% el cociente de las varianzas poblacionales
se encuentra entre 1.0743 y 3.931 minutos”.
Muchos problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre
aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el nombre de
hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de
problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden
formularse como problemas de prueba de hipótesis.
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones.
La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de poblaciones
que al inicio se supone cierta (es decir, la “creencia a priori”).
La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la hipótesis
del investigador. La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia
muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se continúa creyendo
en la validez de la hipótesis nula.
Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis son rechazar Ho o no
rechazar Ho. Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria y se calcula la
información, como el promedio, la proporción, etc. Esta información muestral se llama estadística de
prueba. Estadística de Prueba: Una estadística de prueba se basa en la información de la muestra como la
media o la proporción.
El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera. También es
conocido como α o nivel de significancia. Si tuviéramos un nivel de confianza del 95% entonces el nivel
de significancia sería del 5%. Análogamente si se tiene un nivel de confianza del 90% entonces el nivel
de significancia sería del 10%. El error tipo II o error β se define como la aceptación de la hipótesis nula
cuando ésta es falsa.
Se puede seguir seis pasos básicos para configurar y realizar correctamente una prueba de hipótesis. Por
ejemplo, el gerente de una fábrica de tuberías desea determinar si el diámetro promedio de los tubos es
diferente de 5 cm. El gerente sigue los pasos básicos para realizar una prueba de hipótesis.
pág. 96
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
1) Especificar las hipótesis. En primer lugar, el gerente formula las hipótesis. La hipótesis nula es: la
media de la población de todos los tubos es igual a 5 cm. Formalmente, esto se escribe como: H0: μ = 5
Luego, el gerente elige entre las siguientes hipótesis alternativas:
Como tiene que asegurarse de que los tubos no sean más grandes ni más pequeños de 5 cm, el gerente
elige la hipótesis alternativa bilateral, que indica que la media de la población de todos los tubos no es
igual a 5 cm. Formalmente, esto se escribe como H1: μ ≠ 5.
2)Elegir un nivel de significancia (también denominado alfa o α). El gerente selecciona un nivel de
significancia de 0.05, que es el nivel de significancia más utilizado.
4) Recolectar los datos. Recoge una muestra de tubos y mide los diámetros.
6)Decidir si rechazar o no rechazar la hipótesis nula. El gerente rechaza la hipótesis nula y concluye que
el diámetro medio de todos los tubos no es igual a 5 cm.
Consideraciones:
H0: μ=X
H1:μ≠X
pág. 97
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Aceptación de Ho
Rechazo de Ho Rechazo de Ho
α/2 X α/2
Consideraciones:
H0: μ≤X
H1:μ>X
Aceptación de Ho
Rechazo de Ho
X α
Consideraciones:
H0: μ≥X
H1:μ<X
pág. 98
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Aceptación de Ho
Rechazo de Ho
α X
pág. 99
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #79: Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado
muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años,
¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de
significancia de 0.05.
Solución:
a) Identificar datos:
b) Establecer hipótesis:
Ho: μ ≤ 70 años
H 1: μ> 70 años
Aceptación de Ho
Rechazo de Ho
-∞ 1.645
pág. 100
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
71.8−70
Z= =2.02247
8.9
√2 100
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que Z>1.645 el valor
de 2.02247 cae en la zona de rechazo de Ho
g) Emitir conclusión: “Con un 5% de significancia se puede decir que existe suficiente evidencia
estadística para determinar que el promedio de vida excede los 70 años en Estados Unidos”.
Ejemplo #80: El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que gastan
varios aparatos electrodomésticos. Se afirma que una aspiradora gasta un promedio de 46 kilowatt-hora
al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las
aspiradoras gastan un promedio de 42 kilowatt-hora al año con una desviación estándar de 11.9 kilowatt-
hora. ¿Esto sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en promedio, menos
de 46 kilowatt-hora anualmente? Suponga que la población de kilowatt-hora es normal.
Solución:
a) Identificar datos:
b) Establecer hipótesis:
pág. 101
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ho: μ ≥ 46 kilowatt-hora
H 1: μ< 46 kilowatt-hora
Gráfica de distribución
T, df=11
0.05
-1.796 0
X
42−46
t= =−1.1644
11.9
√2 12
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que t>-1.796 el valor
de −1.1644 cae en la zona de aceptación de Ho.
g) Emitir conclusión: “Con un 5% de significancia se puede decir que existe suficiente evidencia
estadística para determinar que el promedio de consumo de las aspiradoras es mayor o igual a 46
kilowatt-hora anualmente”.
pág. 102
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #81: Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16.0
onzas. Las distribuciones de los volúmenes de llenado pueden suponerse normales, con desviaciones
estándar σ1= 0.020 y σ2 = 0.025 onzas.
Máquina #1 Máquina #2
16.03 16.01 16.02 16.03
16.04 15.96 15.97 16.04
16.05 15.98 15.96 16.02
16.05 16.02 16.01 16.01
16.02 15.99 15.99 16.00
Un miembro del grupo de ingeniería de calidad sospecha que el volumen neto de llenado de ambas
máquinas es el mismo, sin importar si éste es o no de 16 onzas. De cada máquina se toma una muestra
aleatoria de 10 botellas. ¿Se encuentra el ingeniero en lo correcto? Utilice α = 0.05
Solución
a) Identificar datos:
b) Establecer hipótesis:
Ho: μ 1=μ2
H 1: μ 1 ≠ μ 2
pág. 103
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
( x 1−x 2 )−(μ1−μ 2)
Z=
√
2 2
2 σ1 σ 2
+¿ ¿
n1 n2
Gráfica de distribución
Normal, Media=0, Desv.Est.=1
0.025 0.025
-1.960 0 1.960
X
(16.015−16.005 )−(0)
Z= =0.98773
√
2 0.022 0.0252
10
+
10
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que -1.96<Z<1.96 el
valor de 0.98773 cae en la zona de aceptación de Ho.
g) Emitir conclusión: “Con un 5% de significancia se puede decir que existe suficiente evidencia
estadística para determinar que el promedio de contenido de las botellas es el mismo”.
pág. 104
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #82: Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo
humano para absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que cada
medicamento alcance un nivel específico en el torrente sanguíneo se distribuye normalmente. Se
eligieron al azar a doce personas para ensayar cada fármaco registrándose el tiempo en minutos que
tardó en alcanzar un nivel específico en la sangre. Calcule con α = 0.05 si existe diferencia entre los
tiempos promedio (minutos). Suponga varianzas iguales, toda vez que la media muestral del fármaco A
fue de 26.8 con una varianza de 15.57 y con muestra de 12 y del fármaco B, la media muestral fue de
32.6 con una varianza de 17.54 y con muestra de 12 también.
Solución:
a) Identificar datos:
x 1=26.8 μ1=? 2
s1=15.57 n1=12 α =0.05
x 2=32.6 μ2=? 2
s2=17.54 n2 =12
b) Establecer hipótesis:
Ho: μ 1=μ2
H 1: μ 1 ≠ μ 2
( x 1−x 2 )−(μ1−μ2 )
t=
√ √
2 2
2 s1∗( n1−1 ) + s 2∗( n2−1 ) 2 1 1
∗ +
n1+ n2−2 n1 n2
pág. 105
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
T, df=22
0.025 0.025
-2.074 0 2.074
X
( 26.8−32.6 ) −(0)
t= =−3.49172
√
2 15.57∗( 12−1 ) +17.54∗( 12−1 ) 2 1 1
12+12−2
∗ +
12 12 √
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que -2.074<t<2.074,
el valor de −3.49172 cae en la zona de rechazo de Ho.
g) Emitir conclusión: “Con un 5% de significancia se puede decir que existe suficiente evidencia
estadística para determinar que el tiempo de efectividad para ser absorbido entre ambos medicamentos
es diferente”.
pág. 106
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #83: Dos proveedores fabrican un engrane de plástico utilizado en una impresora láser. Una
característica importante de estos engranes es la resistencia al impacto la cual se mide en pies-libras.
Una muestra aleatoria de 10 engranes suministrados por el primer proveedor arroja los siguientes
resultados: x 1=290 y s1 = 12. Del segundo proveedor se toma una muestra aleatoria de 16 engranes,
donde los resultados son x 2=321 y s2 = 45. ¿Existe evidencia que apoye la afirmación de que los
engranes del proveedor 2 tienen una mayor resistencia promedio al impacto? Use un nivel de
significancia de 0.05.
Solución:
a) Identificar datos:
b) Establecer hipótesis:
Ho: μ1 ≥ μ 2
H 1: μ 1< μ 2
( )
2 2 2
s1 s2
+
n1 n 2
v= −2
( ) ( )
2 2 2 2
s1 s2
n1 n2
+
n 1+1 n2 +1
( x 1−x 2 ) −(μ1 −μ 2)
t=
√
2 2
2 s 1 s2 1
+
n1 n 2
pág. 107
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
T, df=18
0.05
-1.734 0
X
( )
2 2 2
12 45
+
10 16
v= −2 ≅ 18
( ) ( )
2 2 2 2
12 45
10 16
+
10+ 1 16+1
( 290−321 ) −(0)
t= =−2.61
√2 12 2 452
+
10 16
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que t>-1.734, el valor
de −2.61 cae en la zona de rechazo de Ho.
g) Emitir conclusión: “Con un 5% de significancia se puede decir que la afirmación de que los engranes
del proveedor 2 no tienen una mayor resistencia promedio al impacto”.
pág. 108
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #83: Un constructor afirma que se instalan bombas de calor en 70% de todas las casas que se
construyen hoy en día en la ciudad de Richmond. ¿Estaría de acuerdo con esta afirmación si una
investigación de casas nuevas en esta ciudad muestra que 8 de 15 tienen instaladas bombas de calor?
Utilice un nivel de significancia de 0.10.
Solución:
a) Identificar datos:
b) Establecer hipótesis:
x−n∗p o
Z= 2
√n∗po∗(1−p o )
d) Establecer Zonas de Aceptación y Rechazo:
pág. 109
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
Normal, Media=0, Desv.Est.=1
0.025 0.025
-1.960 0 1.960
X
8−15∗0.70
Z= 2 =−1.40859
√15∗0.70∗0.30
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que -1.96<Z<1.96 el
valor de −1.40859 cae en la zona de aceptación de Ho.
g) Emitir conclusión: “Con un 10% de significancia se puede decir que existe suficiente evidencia
estadística para determinar el 70% de las casas tienen bombas de calor instaladas”.
pág. 110
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #84: Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en una
operación de pulido en la fabricación de lentes intraoculares utilizados en el ojo humano después de una
cirugía de cataratas. Se pulen 300 lentes con la primera solución y, de éstos, 253 no presentaron defectos
inducidos por el pulido. Después se pulen otros 300 lentes con la segunda solución, de los cuales 196
resultan satisfactorios. ¿Existe alguna razón para creer que las dos soluciones para pulir son diferentes?
Utilice α = 0.01.
Solución:
a) Identificar datos:
b) Establecer hipótesis:
Ho: p 1=p 2
H 1: p1 ≠ p 2
x 1+ x2 ( p1 − p2 )
^p= Z=
√
n1 + n2 2
(
^p∗( 1− ^p )∗ 1 + 1
n 1 n2 )
d) Establecer Zonas de Aceptación y Rechazo:
pág. 111
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
Normal, Media=0, Desv.Est.=1
0.005 0.005
-2.576 0 2.576
X
^p=
253+196 449
= Z=
( 253
=5.36215
− )
49
300 75
√
300+300 600 449
2 ∗151
600
600
∗
1
+
1
300 300 ( )
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que -2.58<Z<2.58 el
valor de 5.36215 cae en la zona de rechazo de Ho.
g) Emitir conclusión: “Con un 1% de significancia se puede decir que existe suficiente evidencia
estadística para determinar que las 2 soluciones para pulir son diferentes”.
pág. 112
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #85: Se hizo un estudio para definirse si los ejercicios aeróbicos reducen el ritmo cardiaco de
una persona durante el descanso, y al examinar a diez voluntarios antes y después de seguir un programa
de ese tipo durante seis meses, sus pulsaciones, en latidos por minuto, dieron los siguientes registros:
Voluntario 1 2 3 4 5 6 7 8 9 10
Ejercicio 73 77 68 62 72 80 76 64 70 72
Reposo 68 72 64 60 71 77 74 60 64 68
Use α = 0.05 para calcular si los ejercicios aeróbicos reducen el ritmo cardiaco durante el reposo.
Solución:
Voluntario 1 2 3 4 5 6 7 8 9 10
Ejercicio 73 77 68 62 72 80 76 64 70 72
Reposo 68 72 64 60 71 77 74 60 64 68
Diferencia 5 5 4 2 1 3 2 4 6 4
a) Identificar datos:
b) Establecer hipótesis:
Ho: μ1 ≤ μ 2
H 1: μ 1> μ 2
d
t=
sd
2
√n
d) Establecer Zonas de Aceptación y Rechazo:
pág. 113
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
T, df=9
0.05
0 1.833
X
3.6
t= =7.21606
1.57762
√2 10
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que t>1.833 el valor
de 7.21606 cae en la zona de rechazo de Ho.
g) Emitir conclusión: “Con un 5% de significancia se puede decir que existe suficiente evidencia
estadística para determinar que los ejercicios aeróbicos si reducen el ritmo cardiaco durante el reposo”.
pág. 114
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #86: Una compañía que produce una parte maquinada para un motor, afirma que tiene una
varianza de diámetro no mayor a 0.0002 pulgadas. Una muestra aleatoria de 10 de dichas partes dio una
varianza de muestra s2 = 0.0003. Si se supone que las medidas del diámetro se distribuyen en forma
normal, ¿hay evidencia para refutar lo que afirma el proveedor? Use α = 0.05.
Solución:
a) Identificar Datos:
b) Establecer Hipótesis:
H0: σ2 ≤ 0.0002
H1: σ2 > 0.0002
( n−1 )∗s 2
2=
σ2
Gráfica de distribución
Chi-cuadrada, df=9
0.05
0 16.92
X
pág. 115
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
( 10−1 )∗0.0003
2= =13.5
0.0002
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que 2<16.92 el valor
de 13.5 cae en la zona de aceptación de Ho.
g) Emitir conclusión: “Con un 5% de significancia se puede decir que existe suficiente evidencia
estadística para determinar que el proveedor cumple con lo que dice respecto a su producto”.
Solución:
a) Identificar Datos:
pág. 116
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
b) Establecer Hipótesis
2
s1
F= 2
s2
Gráfica de distribución
F, df1=24, df2=19
0.05
0 2.114
X
1.04
F= =2.0392
0.51
f) Verificar el Valor Obtenido contra los Criterios de Aceptación y Rechazo: Dado que F <2.114 el valor
de 2.0392 cae en la zona de aceptación de Ho.
g) Emitir conclusión: “Con un 5% de significancia se puede decir que existe suficiente evidencia
estadística para determinar que las variaciones del proceso son menores para el 2”.
pág. 117
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 118
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
4. Análisis estadístico
Conceptos
Este tipo de diseño de experimento se considera un sólo factor de interés y el objetivo es comparar más
de dos tratamientos, con el fin de elegir la mejor alternativa entre las varias que existen, o por lo menos
para tener una mejor comprensión del comportamiento de la variable de interés en cada uno de los
distintos tratamientos. Se presentan los diseños experimentales que se utilizan cuando el objetivo es
comparar más de dos tratamientos. Puede ser de interés comparar tres o más máquinas, varios
proveedores, cuatro procesos, tres materiales, cinco dosis de un fármaco, etc.
Al hacer tales comparaciones, existe un interés y un objetivo claro. Por ejemplo, una comparación de
cuatro dietas de alimentación en la que se utilizan ratas de laboratorio, se hace con el fin de estudiar si
alguna dieta que se propone es mejor o igual que las que ya existentes; en este caso, la variable de
interés es el peso promedio alcanzado por cada grupo de animales después de ser alimentado con la dieta
que le toco.
Generalmente, el interés del experimentador está centrado en comparar los tratamientos en cuanto a sus
medias poblacionales, sin olvidar que también es importante compararlos con respecto a sus varianzas.
Así, desde el punto de vista estadístico, la hipótesis fundamental a probar cuando se comparan varios
tratamientos es:
H 0 : μ1=μ2=…=μn
H 1 : μ i ≠ μ j para algún i ≠ j
De este modo, decidir si los tratamientos son iguales estadísticamente en cuanto a sus medias, frente a la
alternativa de que al menos dos de ellos son diferentes. La estrategia natural para resolver este problema
es obtener una muestra representativa de mediciones en cada uno de los tratamientos, y construir un
estadístico de prueba para decidir el resultado de dicha comparación. Se podría pensar que una forma de
probar la hipótesis nula de la expresión anterior, es mediante la prueba t de Student, aplicadas a todos los
posibles pares de medias; sin embargo, esta manera de proceder incrementaría de manera considerable el
error tipo I o α.
Como algún caso práctico, suponga que, al comparar varias máquinas, si cada máquina es manejada por
un operador diferente y se sabe que éste tiene una influencia en el resultado, entonces, es claro que el
factor operador debe tomarse en cuenta si se quiere comparar a las máquinas de manera justa. Un
operador más hábil puede ver a su máquina (aunque ésta sea la peor) como la que tiene el mejor
desempeño, lo que impide una comparación adecuada de los equipos. Para evitar este sesgo habría dos
maneras de anular el posible efecto del factor operador:
Utilizando el mismo operador en las cuatro máquinas. Esta estrategia no es aconsejable, ya que,
al utilizar el mismo operador, se elimina el efecto del factor operador, pero restringe la validez de
pág. 119
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Cada operador trabaje durante el experimento con cada una de las máquinas, esta estrategia es
más recomendable, ya que al utilizar todos los operadores con todas las máquinas permite tener
resultados de la comparación que son válidos para todos los operadores. Esta última de manera
nulificar el efecto de operadores, recibe el nombre de Bloqueo.
Factores de bloqueo
Son factores adicionales al factor de interés que se incorporan de manera explícita en un experimento
comparativo, para estudiar de manera más adecuada y eficaz al factor de interés.
Observación. Cuando se comparan varias máquinas, manejadas por operadores diferentes, es pertinente
incluir explícitamente al factor operadores (bloques) para lograr el propósito del estudio. También se
podrían controlar el tipo de material, lotes, tipo de producto, día, turno, etc. Se controlan factores que,
por conocimiento del proceso o experiencia previa, se sabe que pueden afectar en forma sensible el
resultado de la comparación.
Sin embargo, es común que estas pruebas o experimentos se hagan sobre la marcha, con base en el
ensayo y error, apelando a la experiencia y a la intuición, en lugar de seguir un plan experimental
adecuado que garantice una buena respuesta a las interrogantes planteadas. Algo similar ocurre con el
análisis de los datos experimentales, donde más que hacer un análisis riguroso de toda la información
obtenida y tomar en cuenta la variación, se realiza un análisis informal, ¨intuitivo¨ Es tal el poder de la
experimentación que, en ocasiones, se logra mejoras a pesar de que el experimento se hizo con base en
el ensayo y error. Sin embargo, en situaciones de cierta complejidad no es suficiente aplicar este tipo de
experimentación, por lo que es mejor proceder siempre en una forma eficaz que garantice la obtención
de las respuestas a las interrogantes planteadas en un lapso corto de tiempo y utilizando pocos recursos.
El diseño estadístico de experimentos es precisamente la forma más eficaz de hacer pruebas. El diseño
de experimentos consiste en determinar cuáles pruebas se deben realizar y de qué manera, para obtener
datos que, al ser analizados estadísticamente, proporcionen evidencias objetivas que permitan responder
las interrogantes planteadas, y de esa manera clarificar los aspectos inciertos de un proceso, resolver un
problema o lograr mejoras. Algunos problemas típicos que pueden resolverse con el diseño y el análisis
de experimentos son los siguientes:
1. Comparar a dos o más materiales con el fin de elegir al que mejor cumple los requerimientos.
pág. 120
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
2. Comparar varios instrumentos de medición para verificar si trabajan con la misma precisión y
exactitud.
3. Determinar los factores (las x vitales) de un proceso que tienen impacto sobre una o más
características del producto final.
4. Encontrar las condiciones de operación (temperatura, velocidad, humedad, por ejemplo) donde
se reduzcan los defectos o se logre un mejor desempeño del proceso.
5. Reducir el tiempo de ciclo del proceso.
6. Hacer el proceso insensible o robusto a oscilaciones de variables ambientales.
7. Apoyar el diseño o rediseño de nuevos productos o procesos
8. Ayudar a conocer y caracterizar nuevos materiales.
En general, cuando se requiere mejorar un proceso existen dos maneras básicas de obtener la
información necesaria para ello:
Observar o monitorear vía herramientas estadísticas, hasta obtener señales útiles que permitan
mejorarlo; se dice que ésta es una estrategia pasiva.
La otra manera consiste en experimentar, es decir, hacer cambios estratégicos y deliberados al
proceso para provocar dichas señales útiles.
Al analizar los resultados del experimento se obtienen las pautas a seguir, que muchas veces se
concretan en mejoras sustanciales del proceso. En este sentido, experimentar es mejor que sentarse a
esperar a que el proceso nos indique por sí solo cómo mejorarlo. El diseño de experimentos es un
conjunto de técnicas activas, en el sentido de que no esperan que el proceso mande las señales útiles,
sino que éste se ¨manipulan¨ para que proporcione la información que se requiere para su mejoría.
El saber diseño de experimentos y otras técnicas estadísticas, en combinación con conocimientos del
proceso, sitúan al responsable del mismo como un observador perceptivo y proactivo que es capaz de
proponer mejoras y de observar algo interesante (oportunidades de mejora) en el proceso y en los datos
donde otra persona no ve nada.
Los diseños experimentales más utilizados para comparar tratamientos son (Jiménez, 2012):
1. Diseño completamente al azar (DCA)
2. Diseño en bloque completamente al azar (DBCA)
3. Diseño en cuadro latino (DCL)
4. Diseño en cuadro grecolatino (DCGL)
La diferencia fundamental entre estos diseños es el número de factores de bloque que incorporan o
controlan de forma explícita durante el experimento. La comparación de los tratamientos en cuanto a la
respuesta media que logran, en cualquiera de estos diseños, se hace mediante la hipótesis:
H 0 : μ1=μ2=…=μn
H 1 : μ i ≠ μ j para algún i ≠ j
pág. 121
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
que se prueba con la técnica estadística llamada Análisis de Varianza (ANOVA) con uno, dos, tres o
cuatro criterios de clasificación, dependiendo del número de factores de bloques incorporados al diseño.
Donde:
Y es la variable de salida,
μ la media global,
τ i el efecto del i-ésimo tratamiento,
ε ierror aleatorio,
γ i δ k ε ijk son los efectos de tres factores de bloqueo.
Un efecto de interacción entre dos factores hace referencia a que el efecto de cada factor depende del
nivel en que se encuentra el otro.
El modelo de efectos fijos (es cuando se estudian todos los posibles tratamientos) de análisis de la
varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a
varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta"
con una distribución normal.
Este modelo se supone cuando el investigador se interesa únicamente por los niveles del factor presentes
en el experimento, por lo que cualquier variación observada en las puntuaciones se deberá al error
experimental. En caso que los tratamientos tengan efecto, las observaciones se podrán describir con el
modelo estadístico lineal dado por:
Y ij =μ+ τ i+ ε ij
pág. 122
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Donde:
Este modelo implica que en el diseño completamente al azar actuarían a lo más dos fuentes de
variabilidad: Los tratamientos y el error aleatorio. La media global μ de la variable de respuesta no se
considera una fuente de variabilidad por ser una constante común a todos los tratamientos, que hace las
veces de punto de referencia con respecto al cual se comparan las respuestas medias de los tratamientos.
En muchas comparaciones, como las antes mencionadas, se hacen con base en el diseño completamente
al azar (DCA), que es el más simple de todos los diseños que se utilizan para comparar dos o más
tratamientos, dado que sólo consideran dos fuentes de variabilidad: los tratamientos y el error aleatorio.
En la siguiente unidad veremos diseños que consideran la influencia de otras fuentes de variabilidad
(bloques).
Este diseño se llama completamente al azar porque todas las corridas experimentales se realizan en
orden aleatorio completo. De esta manera, si durante el estudio se hacen en total N pruebas, éstas se
corren al azar, de manera que los posibles efectos ambientales y temporales se vayan repartiendo
equitativamente entre los tratamientos.
pág. 123
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
H 0 : μ1=μ2=…=μn
H 1 : μ i ≠ μ j para algún i ≠ j
Tabla de ANOVA
Los resultados del análisis de varianza se presentan en una tabla ANOVA que resume los valores
importantes de la prueba. Esta tabla tiene un formato estándar que usan los libros y los problemas de
computadora que ejecutan ANOVA. La siguiente tabla muestra la forma general de la tabla ANOVA.
En dicha tabla se resumen los cálculos necesarios para la prueba de igualdad de las medias poblacionales
usando análisis de varianza. Primero se usa el método dentro para estimar δ 2. Cada valor de los datos se
compara con su propia media, y la suma de las diferencias al cuadrado se divide entre los grados de
libertad c (n−1).
c ( n−1 )
j
2 2
Total n ⋅ Σ ( x i−x ) + ∑ ( x i −x ) j
La tabla ANOVA contiene columnas con las fuentes de variación, las sumas de cuadrados, los grados de
libertad, las estimaciones de la varianza y el valor F para el procedimiento de análisis de varianza.
Ejemplo #88: Comparación de cuatro métodos de ensamble. Un equipo de mejora investiga el efecto de
cuatro métodos de ensamble A, B, C y D, sobre el tiempo de ensamble en minutos con un nivel de
significancia de 0.05. En primera instancia, la estrategia experimental es aplicar cuatro veces los cuatro
métodos de ensamble en orden completamente aleatorio (las 16 pruebas en orden aleatorio). Los tiempos
de ensamble obtenidos se muestran en la siguiente tabla:
Método de ensamble
A B C D
6 7 11 10
8 9 16 12
7 10 11 11
8 8 13 9
Si se usa el diseño completamente al azar (DCA), se supone que, además del método de ensamble, no
existe ningún otro factor que influya de manera significativa sobre la variable de respuesta (tiempo de
ensamble).
pág. 124
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Solución:
H 0 : μ A =μ B =μ C =μ D
H 1 : por lo menos dos μi son diferentes
Método de ensamble
A B C D
6 7 11 10
8 9 16 12
7 10 11 11
8 8 13 9
xi 7.25 8.5 12.75 10.5
x 9.75
2 2 2 2 2
∑ ( x i −x ) =( 6−9.75 ) + ( 8−9.75 ) + …+ ( 11−9.75 ) + ( 9−9.75 ) =29.5
j
pág. 125
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
F, df1=3, df2=12
0.7
0.6
0.5
Aceptar H0
Densidad
0.4
Rechazar H0
0.3
0.2
0.1
0.05
0.0
0 3.490
X
4.- Se emite conclusión: “Con un nivel de significancia del 5%, se puede decir que existen diferencias en
por lo menos 2 promedios de los métodos de ensambles A, B, C y D.
pág. 126
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 127
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
5.- En Opciones, dejamos como está, en Comparaciones, seleccionaremos Tukey y Fisher, en Gráficas
activamos todas las casillas de gráfica de datos y seleccionamos tres en uno, en Resultados dejamos
como está y finalmente en Almacenamiento dejamos como esta:
pág. 128
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Sesión:
Método
Hipótesis nula Todas las medias son iguales
Hipótesis alterna No todas las medias son iguales
Nivel de significancia α = 0.05
Se presupuso igualdad de varianzas para el análisis.
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 3 69.50 23.167 9.42 0.002
Error 12 29.50 2.458
Total 15 99.00
Gráfica de distribución
F, df1=3, df2=12
0.7
0.6
0.5
Densidad
0.4
0.3
0.2
0.1
0.05
0.0
0 3.490
X
pág. 129
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Medias
Facto
r N Media Desv.Est. IC de 95%
A 4 7.250 0.957 (5.542, 8.958)
B 4 8.500 1.291 (6.792, 10.208)
C 4 12.75 2.36 (11.04, 14.46)
D 4 10.500 1.291 (8.792, 12.208)
Desv.Est. agrupada = 1.56791
pág. 130
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
B-A
C-A
D-A
C-B
D-B
D-C
pág. 131
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
B-A
C-A
D-A
C-B
D-B
D-C
12.5
Datos
10.0
7.5
5.0
A B C D
pág. 132
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
15.0
12.5
Datos
10.0
7.5
5.0
A B C D
15.0
12.5
Datos
10.0
7.5
5.0
A B C D
pág. 133
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
90
Porcentaje
Residuo
50
0
10
1 -2
-4 -2 0 2 4 8 10 12
Residuo Valor ajustado
Histograma
4
3
Frecuencia
0
-2 -1 0 1 2 3
Residuo
Ejemplo #89: Se investigaron cuatro métodos diferentes para preparar el compuesto superconductor
Pb Mo6 S 8. Los autores sostienen que la presencia de oxígeno durante el proceso de preparación afecta la
temperatura de transición de superconducción T c del material. Los métodos de preparación 1 y 2 usan
técnicas que están diseñadas para eliminar la presencia de oxígeno, mientras que los métodos 3 y 4
permiten la presencia de oxígeno. Se hicieron cinco observaciones de T c (en °K) para cada método, y los
resultados son los siguientes:
Método de preparación
A B C D
de Transición
Temperatura
1. ¿Hay evidencia que apoye la afirmación de que la presencia de oxígeno durante la preparación
afecta la temperatura de transición media? Use α=0.05.
2. ¿Cuál es el valor P para la prueba F del inciso anterior
3. Analice los residuales de este experimento.
4. Aplique el método de la LSD en el experimento. ¿Qué métodos de preparación difieren? Use
α=0.05
pág. 134
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Análisis de Varianza
Fuent Valor
e GL SC Ajust. MC Ajust. F Valor p
Factor 3 22.124 7.3747 14.85 0.000
Error 16 7.948 0.4968
Total 19 30.072
Gráfica de distribución
F, df1=3, df2=12
0.7
0.6
0.5
Densidad
0.4
0.3
0.2
0.1
0.05
0.0
0 3.490
X
pág. 135
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Medias
Facto
r N Media Desv.Est. IC de 95%
A 5 14.8000 0.0707 (14.1318, 15.4682)
B 5 14.8000 0.1581 (14.1318, 15.4682)
C 5 12.300 0.464 (11.632, 12.968)
D 5 13.380 1.320 (12.712, 14.048)
pág. 136
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
medias
B-A 0.000 0.446 (-1.277, 1.277) 0.00 1.000
C-A -2.500 0.446 (-3.777, - -5.61 0.000
1.223)
D-A -1.420 0.446 (-2.697, - -3.19 0.027
0.143)
C-B -2.500 0.446 (-3.777, - -5.61 0.000
1.223)
D-B -1.420 0.446 (-2.697, - -3.19 0.027
0.143)
D-C 1.080 0.446 (-0.197, 2.357) 2.42 0.113
pág. 137
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
B-A
C-A
D-A
C-B
D-B
D-C
-4 -3 -2 -1 0 1 2 3
pág. 138
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
B-A
C-A
D-A
C-B
D-B
D-C
-4 -3 -2 -1 0 1 2
pág. 139
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
15
14
Datos
13
12
A B C D
14.5
14.0
13.5
Datos
13.0
12.5
12.0
11.5
A B C D
pág. 140
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
14.5
14.0
13.5
Datos
13.0
12.5
12.0
11.5
A B C D
0
Residuo
50
-1
10
1 -2
-2 -1 0 1 12.5 13.0 13.5 14.0 14.5
Residuo Valor ajustado
Histograma
12
9
Frecuencia
0
-1.5 -1.0 -0.5 0.0 0.5 1.0
Residuo
pág. 141
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Finalmente:
1. ¿Hay evidencia que apoye la afirmación de que la presencia de oxígeno durante la preparación
afecta la temperatura de transición media? Use α=0.05.
R=si
Conceptos
Cuando se quieren comparar ciertos tratamientos o estudiar el efecto de un factor, es deseable que las
posibles diferencias se deban principalmente al factor de interés y no a otros factores que no se
consideran en el estudio. Cuando esto no ocurre y existen otros factores que no se controlan o nulifican
para hacer la comparación, las conclusiones podrían ser afectadas sensiblemente.
Ejemplo #90: supongamos que se quieren comparar varias máquinas, si cada máquina es manejada por
un operador diferente y se sabe que éste tiene una influencia en el resultado, entonces es claro que el
factor operador debe tomarse en cuenta si se quiere comparar a las máquinas de manera justa.
Un operador más hábil puede hacer ver a su máquina (aunque ésta sea la peor) como la que tiene el
mejor desempeño, lo cual impide hacer una comparación adecuada de los equipos. Para evitar este sesgo
hay dos maneras de anular el posible efecto del factor operador: la manera lógica es utilizar el mismo
operador en las cuatro maquinas; sin embargo, tal estrategia no siempre es aconsejable, ya que utilizar el
mismo sujeto elimina el efecto del factor operador, pero restringe la validez de la comparación con
dicho operador, y es posible que el resultado no se mantenga al utilizar a otros operadores. La otra forma
de anular el efecto operador en la comparación consiste en que cada operador trabaje durante el
experimento con cada una de las máquinas. Esta estrategia es la más recomendable, ya que utilizar a
todos los operadores con todas las máquinas permite tener resultados de la comparación que son válidos
para todos los operadores. Esta forma de nulificar el efecto de operadores, recibe el nombre de bloqueo.
pág. 142
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Factores de bloque
A los factores adicionales al factor de interés que se incorporan de manera explícita en un experimento
comparativo se les llama factores de bloque. Éstos tienen la particularidad de que no se incluyen en el
experimento porque interese analizar su efecto, sino como un medio para estudiar de manera adecuada y
eficaz al factor de interés. Los factores de bloque entran al estudio en un nivel de importancia secundaria
con respecto al factor de interés y, en este sentido, se puede afirmar que se estudia un solo factor, porque
es uno el factor de interés. En un diseño en bloques completos al azar (DBCA) se consideran tres fuentes
de variabilidad:
El factor de tratamientos
El factor de bloque
El error aleatorio
se tienen tres posibles ¨culpables¨ de la variabilidad presente en los datos. La palabra completo en el
nombre del diseño se debe a que en cada bloque se prueban todos los tratamientos, o sea, los bloques
están completos. La aleatorización se hace dentro de cada bloque; por lo tanto, no se realiza de manera
total como en el diseño completamente al azar. Los factores de bloqueo que aparecen en la práctica son:
Turno, lote, día, tipo de material, línea de producción, operador, maquina, método, etc. Supongamos una
situación experimental con k tratamientos y b bloques. El aspecto de los datos para este caso se muestra
en la siguiente tabla, considerando una repetición en cada combinación de tratamiento y bloque:
Bloque
Tratamiento B1 B2 B3 Bk
… Total Media
1 Y 11 Y 12 Y 13 … Y 1b T 1. y 1.
2 Y 21 Y 22 Y 23 … Y 2b T 2. y 2.
3 Y 31 Y 32 Y 33 … Y 3b T 3. y 3.
⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ ⋮
k Yk1 Yk2 Yk3 … Y kb Tk. yk .
Total T .1 T .2 T .3 … T .b T .. ⋮
Media y .1 y .2 y .3 … y. b … y ..
Modelo estadístico
Cuando se decide utilizar un DBCA, el experimentador piensa que cada medición será el resultado del efecto
del tratamiento donde se encuentre, del efecto al que pertenece y de cierto error que se espera sea aleatorio.
El modelo estadístico para este diseño está dado por:
Y ij =μ+ τ i+ γ i + ε ij
Donde:
Hipótesis a probar
La hipótesis de interés es la misma para todos los diseños comparativos, y está pada por:
H 0 : μ1=μ2=…=μn
H 1 : μ i ≠ μ j para algún i ≠ j
la afirmación a probar es que la respuesta media poblacional lograda con cada tratamiento es la misma para
los k tratamientos y que, por lo tanto, cada respuesta media μ1 es igual a la media global poblacional µ. De
manera alternativa, es posible afirmar que todos los efectos de tratamiento sobre la variable de respuesta son
nulos, porque cuando el efecto τ i =μ1−μ=0, entonces necesariamente la respuesta media del tratamiento es
igual a la media global ( μi=μ ).
Tabla de ANOVA
La hipótesis dada se prueba con un análisis de varianza con dos criterios de clasificación, porque se controlan
dos fuentes de variación: el factor de tratamientos y el factor de bloque. En la tabla siguiente se muestra el
aspecto del ANOVA para diseño DBCA:
Ejemplo #90: Se hace un estudio sobre la efectividad de tres marcas de atomizador para matar moscas.
Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas
expresando en porcentajes. Se hicieron seis replicas, pero en días diferentes; por ello, se sospecha que
puede haber algún efecto importante debido a esta fuente de variación. Los datos obtenidos se muestran
a continuación. Utilice un nivel de significancia del 5%. Para comparar los cuatro métodos se plantea la
hipótesis:
pág. 144
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
H 0 : μ1=μ2=…=μn
H 1 : μ i ≠ μ j para algún i ≠ j
Marca
Atomizador Número de Réplicas
A 72 65 67 75 62 73
B 55 59 68 70 53 50
C 64 74 61 58 51 69
Solución:
Marca
Atomizador Número de Réplicas
A 72 65 67 75 62 73 414
B 55 59 68 70 53 50 355
C 64 74 61 58 51 69 377
191 198 196 203 166 192 1146
k 2 2
T i. T .. 414 2+355 2+377 2 1146 2
SCTrat =∑ − = − =296.3333
i=1 b N 6 18
k 2 2
T . j T .. 1912+ 1982+ 1962 +2032 +1662 +1922 1146 2
SC B=∑ − = − =281.3333
i=1 k N 3 18
k n 2 2
Y .. 1146
SCT =∑ ∑ Y − = 72 +65 +…+69 −
( )
2
2 2 2
ij =1092
i=1 j=1 N 18
SCTrat 296.3333
CM Trat= = =148.1667
b−1 2
SC B 281.3333
CM B= = =56.2667
k −1 5
SC E 514.3333
CM E = = =51.4333
(k −1)(b−1) 10
pág. 145
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
CM Trat 148.1667
F C= = =2.8817
CM E 51.4333
CM B 56.2667
F C= = =1.0939
CM E 51.4333
Gráfica de distribución
F, df1=2, df2=10
0.05
0 4.103
X
Por último, se emite conclusión: “Con un nivel de significancia del 5%, se puede decir que no existen
diferencias en los promedios de efectividad en los atomizadores A, B y C”.
pág. 146
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 147
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
4.- En Opciones, dejamos como está, en Gráficas activamos cuatro en uno y finalmente en
Almacenamiento dejamos como esta:
pág. 148
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Método
Codificación de factores (-1, 0, +1)
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
2 296.3 148.17 2.88 0.103
Atomizadores
Réplicas 5 281.3 56.27 1.09 0.421
Error 10 514.3 51.43
Total 17 1092.0
Gráfica de distribución
F, df1=2, df2=10
0.05
0 4.103
X
pág. 149
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
(ajustado) (pred)
7.17170 52.90% 19.93% 0.00%
Coeficientes
EE del Valor
Término Coef coef. T Valor p FIV
Constante 63.67 1.69 37.66 0.000
Atomizadores
A 5.33 2.39 2.23 0.050 1.33
B -4.50 2.39 -1.88 0.089 1.33
Réplicas
1 -0.00 3.78 -0.00 1.000 1.67
2 2.33 3.78 0.62 0.551 1.67
3 1.67 3.78 0.44 0.669 1.67
4 4.00 3.78 1.06 0.315 1.67
5 -8.33 3.78 -2.20 0.052 1.67
Ecuación de regresión
Respuesta = 63.67 + 5.33 Atomizadores_A - 4.50 Atomizadores_B - 0.83 Atomizadores_C
s - 0.00 Réplicas_1 + 2.33 Réplicas_2 + 1.67 Réplicas_3 + 4.00 Réplicas_4
- 8.33 Réplicas_5 + 0.33 Réplicas_6
90 5
Porcentaje
Residuo
50 0
-5
10
1 -10
-10 -5 0 5 10 50 55 60 65 70
Residuo Valor ajustado
5
Frecuencia
3.6
Residuo
0
2.4
1.2 -5
0.0 -10
-10 -5 0 5 10 2 4 6 8 10 12 14 16 18
Residuo Orden de observación
pág. 150
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 151
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #91: Se realizó un experimento para determinar el efecto de cuatro sustancias químicas
diferentes sobre la resistencia de una tela. Estas sustancias químicas se usan como parte del proceso de
acabado del planchado permanente. Se seleccionaron cinco muestras de tela, y se corrió un diseño de
bloques completos aleatorizados para probar cada tipo de sustancia química sobre cada muestra de tela
en orden aleatorio. Las respuestas se muestran en resistencia al desgaste N (Newton). Se probarán las
diferencias de las medias utilizadas en el análisis de varianza con α=0.05.
Solución:
H 0 : μ1=μ2=…=μn
H 1 : μ i ≠ μ j para algún i ≠ j
Método
Codificación de factores (-1, 0, +1)
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Sustancia 3 19.354 6.4513 43.23 0.000
Telas 4 6.413 1.6033 10.74 0.001
Error 12 1.791 0.1492
Total 19 27.558
Comparación de Fc y FR
pág. 152
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
F, df1=3, df2=12
0.05
0 3.490
X
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constant 1.9100 0.0864 22.11 0.000
e
Sustancia
A -0.770 0.150 -5.15 0.000 1.50
B -0.150 0.150 -1.00 0.336 1.50
C -0.730 0.150 -4.88 0.000 1.50
Telas
1 0.390 0.173 2.26 0.043 1.60
2 0.615 0.173 3.56 0.004 1.60
3 -1.035 0.173 -5.99 0.000 1.60
4 0.040 0.173 0.23 0.821 1.60
pág. 153
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ecuación de regresión
Respuesta = 1.9100 - 0.770 Sustancia_A - 0.150 Sustancia_B - 0.730 Sustancia_C
+ 1.650 Sustancia_D + 0.390 Telas_1 + 0.615 Telas_2 - 1.035 Telas_3
+ 0.040 Telas_4 - 0.010 Telas_5
90
Porcentaje
Residuo
0.0
50
10 -0.5
1
-0.8 -0.4 0.0 0.4 0.8 0 1 2 3 4
Residuo Valor ajustado
6
Frecuencia
Residuo
0.0
4
2 -0.5
0
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 2 4 6 8 10 12 14 16 18 20
Residuo Orden de observación
Se rechaza Ho. Por tanto, se puede decir con un α=0.05 que si existe diferencia promedio en la
resistencia al desgaste a las telas en por lo menos dos de ellas.
En el diseño en cuadro latino (DCL) se controlan dos factores de bloque y se estudia un factor de
tratamientos, por lo que se tienen cuatro fuentes de variabilidad que pueden afectar la respuesta
observada, estas son:
pág. 154
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Los tratamientos
El factor de bloque I (renglones)
El factor de bloque II (columnas)
El error aleatorio
Se llama cuadro latino por dos razones: es un cuadro debido a que tiene la restricción adicional de que
los tres factores involucrados se prueban en la misma cantidad de niveles, y es latino porque se utilizan
letras latinas para denotar a los tratamientos o niveles del factor de interés. Sean A, B, C, …, K, los k
tratamientos a comparar, por lo tanto, ambos factores de bloques tienen también k niveles cada uno. El
aspecto de los datos se muestra en la siguiente tabla:
Bloque II (columnas)
1 2 3 ⋯ k
1 A=Y111 B=Y212 C=Y313 ⋯ K=YK1K
2 B=Y221 C=Y322 D=Y423 ⋯ A=Y12K
Bloque I
3 C=Y331 D=Y432 E=Y533 ⋯ B=Y23K
(filas)
⋮ ⋮ ⋮ ⋮ ⋱ ⋮
k K=Ykk1 A=Y1k2 B=Y2k3 ⋯ j=YJkK
Ahora se necesitan al menos tres subíndices, por ejemplo, la respuesta Y313 se generó en el tratamiento
tres (C), en el primer nivel del factor renglón y en el tercer nivel del factor columna. El modelo
estadístico para describir el comportamiento de las observaciones está dado por:
Donde Y ijk es la observación del tratamiento i , en el nivel j , del factor renglón y en el nivel l del factor
columna; ε ijkes el error atribuible a dicha observación. De acuerdo con este modelo, la variabilidad total
presente en los datos se puede descomponer como:
2
k −1=(k−1)+( k−1)+(k−1)+(k−2)(k −1)
El ANOVA para el diseño en cuadro latino se muestra en la tabla siguiente. En él se prueba la hipótesis
sobre los efectos de tratamiento del factor renglón y del factor columna. Otra vez, la hipótesis
fundamental es la de los tratamientos; las otras dos proporcionan un adicional al objetivo inicial y
permiten comprobar la relevancia de controlar los factores de bloque.
pág. 155
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #92: Una compañía de mensajería está interesada en determinar cuál marca de llantas tiene mayor
duración en términos del desgaste. Para ello se planea un experimento en cuadro latino, en el que se
comparan las cuatro marcas de llantas sometiéndolas a una prueba de 32 000 kilómetros de recorrido,
utilizando cuatro diferentes tipos de auto y las cuatro posiciones posibles de las llantas en el auto. Así, el
factor de interés es el tipo de llantas o marca, y se controlan dos factores de bloque: el tipo de carro y la
posición de la llanta en el auto. Estos factores de bloque se controlan ya que, por experiencia, se sabe que el
tipo de carro y la posición de la llanta tienen efecto en el desgaste de la misma.
La elección del cuadro latino a utilizar se hace antes de obtener los datos. Para ello, a partir de un cuadro
latino inicial se aleatorizan las columnas y los renglones; después, las diferentes marcas de llantas se asignan
de manera aleatoria a las letras latinas que denotan los niveles del factor de interés
Carro
Posición
1 2 3 4
1 C 12 D 11 A 13 B 8
2 B 14 C 12 D 11 A 3
3 A 17 B 14 C 10 D 9
4 D 13 A 14 B 13 C 9
Las pruebas se hacen al mismo tiempo con choferes, a quienes se les instruye para que manejen de manera
similar sobre el mismo terreno para los cuatro automóviles. Al hacer las pruebas de los cuatro autos al mismo
tiempo se evita el efecto del ambiente en el desgaste; asimismo, el conductor y el tipo de terreno podrían
influir, pero se considera suficiente mantenerlos lo más homogéneo posible durante el experimento. El
diseño y los datos observados se muestran en la tabla anterior. Se mide la diferencia máxima entre el grosor
de la llanta nueva y el grosor de la llanta después de recorrido los 32 000 kilómetros. Obviamente, a mayor
diferencia en grosor mayor desgaste. Las unidades de medición son milésimas de pulgada. Se utiliza un
α=0.05.
Solución:
Posición Carro
pág. 156
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
1 2 3 4
1 C 12 D 11 A 13 B 8 44
2 B 14 C 12 D 11 A 3 40
3 A 17 B 14 C 10 D 9 50
4 D 13 A 14 B 13 C 9 49
56 51 47 29 183
∑A= 47
∑B= 49
∑C= 43
∑D= 44
Planteamiento de Hipótesis:
H 0 : μ1=μ2=…=μn
H 1 : μ i ≠ μ j para algún i ≠ j
k 2 2
T .i . T .. 47 2+ 492 +43 2+ 44 2 1832
SCTrat =∑ − = − =5.6875
i=1 f N 4 16
k 2 2
T i . T .. 442 +40 2+50 2+ 492 183 2
SC B 1=∑ − = − =16.1875
i=1 c N 4 16
k 2 2
T . j T .. 562 +512+ 472 +292 1832
SC B 2=∑ − = − =103.6875
i=1 t N 4 16
k n 2 2
Y .. 2 183
SCT =∑ ∑ Y ij −
2 2 2
=12 + 11 +…+9 − =155.9375
i=1 j=1 N 16
pág. 157
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Tabla ANOVA
Contraste de FC y FT:
Gráfica de distribución
F, df1=3, df2=6
0.05
0 4.757
X
Por lo tanto, aceptamos Ho. Se puede decir que, con un α=0.05 que las llantas se desgastan en promedio
de igual forma sin importar el carro, marca o posición.
pág. 158
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Posición 3 16.188 5.396 1.07 0.431
Carro 3 103.688 34.563 6.83 0.023
Marca 3 5.687 1.896 0.37 0.775
Error 6 30.375 5.063
Total 15 155.938
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constant 11.438 0.563 20.33 0.000
e
Posición
1 -0.438 0.974 -0.45 0.669 1.50
2 -1.437 0.974 -1.48 0.191 1.50
3 1.062 0.974 1.09 0.317 1.50
Carro
1 2.563 0.974 2.63 0.039 1.50
2 1.313 0.974 1.35 0.227 1.50
pág. 159
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ecuación de regresión
Desgast = 11.438 - 0.438 Posición_1 - 1.437 Posición_2 + 1.062 Posición_3 + 0.812 Posición_4
e + 2.563 Carro_1 + 1.313 Carro_2 + 0.313 Carro_3 - 4.188 Carro_4 + 0.312 Marca_A
+ 0.812 Marca_B - 0.687 Marca_C - 0.437 Marca_D
Ajustes y diagnósticos para observaciones poco comunes
Resid
Obs Desgaste Ajuste Resid est.
8 3.00 6.12 -3.12 -2.27 R
Residuo grande R
1
90
Porcentaje
0
Residuo
50
-1
10 -2
-3
1
-4 -2 0 2 4 5.0 7.5 10.0 12.5 15.0
Residuo Valor ajustado
0
Residuo
2 -1
1 -2
-3
0
-3 -2 -1 0 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Residuo Orden de observación
Ejemplo de DCGL, lo veremos solamente en Minitab® dado que sus cálculos son bastos y algo tediosos.
Ejemplo #93: El rendimiento de un proceso químico se midió utilizando cinco lotes de materia prima,
cinco concentraciones del ácido, cinco tiempos de procesamiento (A, B, C, D y E) y cinco
concentraciones del catalizador (α , β , γ , δ , ε ). Se usó el cuadrado grecolatino siguiente. Analizar los
datos de este experimento (utilizar α= 0,05) y sacar conclusiones.
pág. 160
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 161
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Concentración de ácido
Lote
1 2 3 4 5
1 A α 26 B β 16 C γ 19 D δ 16 E ε 3
2 B γ 18 C δ 21 D ε 18 E α 11 A β 21
3 C ε 20 D α 12 E β 16 A γ 25 B δ 13
4 D β 15 E γ 15 A δ 22 B ε 14 C α 17
5 E δ 10 A ε 24 B α 17 C β 17 D γ 14
Modelo lineal general: Rendimiento vs. Lote, Concentración de Ácido, Tiempo de Procesamiento y
Concentraciones de Catalizador
Método
Codificación de factores (-1, 0, +1)
Análisis de Varianza
SC
Fuente GL Ajust. MC Ajust. Valor F Valor p
Lote 4 10.00 2.500 0.27 0.891
Concentración Ácido 4 72.40 18.100 1.94 0.198
Tiempo de Procesamiento 4 442.80 110.700 11.84 0.002
Concentraciones de Catalizador 4 16.00 4.000 0.43 0.785
Error 8 74.80 9.350
Total 24 616.00
pág. 162
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Comparación de FC y FT:
Gráfica de distribución
F, df1=4, df2=8
0.05
0 3.838
X
Se acepta Ho.
Coeficientes
EE del Valor
Término Coef coef. Valor T p FIV
Constante 16.80 0.612 27.47 0.000
0
Lote
1 -0.80 1.22 -0.65 0.531 1.60
2 1.00 1.22 0.82 0.437 1.60
3 0.40 1.22 0.33 0.752 1.60
4 -0.20 1.22 -0.16 0.874 1.60
Concentración Ácido
1 1.00 1.22 0.82 0.437 1.60
pág. 163
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ecuación de regresión
Rendimiento = 16.800 - 0.80 Lote_1 + 1.00 Lote_2 + 0.40 Lote_3 - 0.20 Lote_4 - 0.40 Lote_5
+ 1.00 Concentración Ácido_1 + 0.80 Concentración Ácido_2
+ 1.60 Concentración Ácido_3 - 0.20 Concentración Ácido_4
- 3.20 Concentración Ácido_5 + 6.80 Tiempo de Procesamiento_A
- 1.20 Tiempo de Procesamiento_B + 2.00 Tiempo de Procesamiento_C
- 1.80 Tiempo de Procesamiento_D - 5.80 Tiempo de Procesamiento_E
- 0.20 Concentraciones de Catalizador_α + 0.20 Concentraciones de Catalizador_β
+ 1.40 Concentraciones de Catalizador_γ - 0.40 Concentraciones de Catalizador_δ
- 1.00 Concentraciones de Catalizador_ε
pág. 164
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Residuo
0
50
-2
10
-4
1
-5.0 -2.5 0.0 2.5 5.0 5 10 15 20 25
Residuo Valor ajustado
Residuo
0
3.0
-2
1.5
-4
0.0
-4 -3 -2 -1 0 1 2 3 2 4 6 8 10 12 14 16 18 20 22 24
Residuo Orden de observación
Conclusiones: Con un α= 0,05 se puede decir que el rendimiento de un proceso químico en promedio es
el mismo sin importar, los lotes de materia prima, las concentraciones del ácido, los tiempos de
procesamiento y las concentraciones del catalizador.
pág. 165
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Conceptos
Existen frecuentemente varios factores de los que es necesario investigar de manera simultánea su
influencia sobre una o varias variables de respuesta, donde cada factor tiene la misma importancia,
desde el momento que se decide estudiarlo, y es poco justificable suponer de antemano que los factores
no interactúan entre sí. Los diseños experimentales que permiten estudiar de manera simultánea el efecto
de varios factores son los llamados diseños factoriales.
Un diseño factorial es aquél en el que se investigan todas las posibles combinaciones de los niveles de
los factores en cada ensayo completo. Se dicen que están cruzados, apareciendo el concepto de
interacción. Supone la existencia de repeticiones del experimento en cada una de las posibles
combinaciones de los niveles del factor correspondiente.
El objetivo de un diseño factorial es estudiar el efecto de varios factores sobre una o varias respuestas o
características de calidad y determinar una combinación de niveles de los factores en la cual, el
desempeño del proceso sea mejor que en las condiciones de operación actuales; es decir, encontrar
nuevas condiciones de operación del proceso que eliminen o disminuyan ciertos problemas de calidad en
la variable de salida.
Los factores pueden ser de tipo cualitativo (máquinas, tipos de material, operador, la presencia o
ausencia de una operación previa, etc.), o de tipo cuantitativo (temperatura, humedad, velocidad,
presión, etc.). Para poder analizar la manera en que incluye cada factor sobre la variable respuesta, es
necesario elegir al menos dos niveles de prueba para cada uno de ellos (tres máquinas, dos operadores,
tres velocidades, dos temperaturas, etc.). Con el diseño factorial completa se corren aleatoriamente en el
proceso todas las posibles combinaciones que pueden formarse con los niveles seleccionados.
Concepto de Interacción
Ilustrando de forma intuitiva lo que es la interacción, se toman dos conjuntos de datos. Consideramos
dos factores: α (niveles α1 y α2) y β (niveles β1 y β2). Primer caso: dos factores sin interacción. Los datos
son:
α/ β1 β2
β
α1 10 20
α2 30 40
pág. 166
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
10+20 30+ 40
Eα = − =−20
2 2
10+ 30 20+ 40
Eβ= − =−10
2 2
Eα ∨β 1=10−30=−20
Eα ∨β 2=20−40=−20
De forma similar, los efectos del factor β para los niveles α1 y α2 son, respectivamente:
Eβ∨α 1=10−20=−10
Eβ∨α 2=30−40=−10
Entonces, el efecto de uno de los factores no depende de los niveles del otro factor, lo cual indica que no
hay interacción entre los factores. Cuando ambos factores tienen dos niveles, el efecto de la interacción
es la diferencia entre los promedios de las diagonales, que es en este caso:
10+ 40 30+ 20
Eαβ= − =0
2 2
lo que indica que no hay interacción. Los siguientes gráficos de perfil muestran la falta de
interacción ya que las rectas que aparecen son paralelas.
pág. 167
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Media de Interacción
30
25
20
15
α1 α2 β1 β2
Otros datos o cambios en los datos pueden arrojar interacciones entre los factores.
El experimento factorial más sencillo es en el que intervienen solamente dos factores, por ejemplo, A y
B. Hay niveles del factor A y niveles del factor B. El experimento tiene n réplicas y cada réplica
contiene todas las combinaciones de tratamientos ab . Hay que considerar los factores A y B con a y b (
a , b ≥ 2) niveles de prueba, respectivamente. Con ellos se puede construir el arreglo o diseño factorial
axb , que consiste de tratamientos. Se llama réplica cada repetición completa del arreglo factorial. Los
diseños factoriales que involucran menos de cuatro factores se corren replicados para poder tener la
potencia necesaria en las pruebas estadísticas sobre los efectos de interés, de tal forma que, si se hacen
réplicas, el número total de corridas experimentales es n(axb).
Ejemplo #94: Suponga que, en un proceso de fermentación tequilera, se tienen dos factores A: tipo de
levadura y B: temperatura, cada uno con dos niveles denotados por A1=1 , A2=2 y B 1=22° C , B2=30 ° C
respectivamente. La respuesta de interés es el rendimiento del proceso de fermentación.
pág. 168
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
En la tabla siguiente, se muestran los cuatro tratamientos o puntos del diseño factorial 2 2, y entre
paréntesis se ha indicado cada nivel con los códigos (1, -1). En el experimento original cada tratamiento
se corrió tres veces (tres réplicas), lo cual da un total de 12 corridas del proceso, pero, por simplicidad,
en la última columna de la tabla sólo se anotaron los resultados de la primera réplica.
(-1,1) (1,1)
b ab
Factor B
(1) a
(-1,-1) Factor A (1,-1)
41+ 45 28+63 −5
Efecto A= − = =−2.5
2 2 2
63+45 28+ 41 39
Efecto B= − = =19.5
2 2 2
por lo que en términos absolutos el efecto principal de B es mayor. Por otra parte, se dice que dos
factores interactúan entre sí o tienen un efecto de interacción sobre la variable de respuesta, cuando el
efecto de un factor depende del nivel en que se encuentra el otro. Por ejemplo, los factores A y B
interactúan si el efecto de A es muy diferente en cada nivel de B, o viceversa. Ahora veamos esto con
los datos de la tabla 4.1: el efecto de A cuando B es baja está determinado por:
pág. 169
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Como estos dos efectos de A en función del nivel de B son muy diferentes, entonces es evidencia de que
la elección más conveniente del nivel de A depende del nivel en que esté B, y viceversa. Es decir, eso es
evidencia de que los factores de A y B interactúan sobre Y. En la práctica, el cálculo del efecto A en
cada nivel de B no se hace, y más bien se calcula el efecto global de la interacción de los dos factores,
que se denotan por AB y se calculan como la diferencia entre la respuesta media cuando ambos factores
se encuentran en el m ismo nivel: (-1, -1); (1, 1), y la respuesta media cuando los factores se encuentran
en niveles opuestos: (-1, 1) (1, -1). Para el ejemplo, el efecto de interacción levadura x temperatura está
dado por:
Los valores absolutos (sin importar el signo) de los efectos principales y del efecto de interacción son
una medida de importancia de su efecto sobre la variable de respuesta. Sin embargo, como se tienen
estimaciones muestrales, para saber si los efectos son estadísticamente significativos (diferentes de coro)
se requiere el análisis de varianza (ANOVA).
Modelo estadístico
Con un diseño factorial axb se pueden estudiar los dos efectos individuales y el efecto de interacción de
ambos factores. En términos estadísticos, lo que se afirma es que el comportamiento de la respuesta Y
en el experimento con k réplicas se podría describir mediante el modelo de efectos:
donde μ es la media general, α ies el efecto debido al i-ésimo nivel del factor A, β j es el efecto del j-
ésimo nivel del factor B, (αβ )ij representa al efecto de interacción en la combinación ij y ε ijk es el error
aleatorio que supone sigue una distribución con media cero y varianza constante σ 2 ( N ( 0 ,σ 2 ) ) y son
independientes entre sí. Para que la estimación de los parámetros en este modelo sea única, se
introducen las restricciones:
a b a b
Es decir, los efectos dados en el modelo son desviaciones respecto de la media global. Puede usarse el
análisis de varianza para probar hipótesis relativas a los efectos principales de los factores A y B y la
interacción AB. En este modelo, las hipótesis de interés para los tres efectos son:
Ho: A=0
H 1: A ≠ 0
Ho: B=0
H 1: B ≠ 0
pág. 170
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ho: AB=0
H 1: AB ≠ 0
Estas hipótesis se prueban mediante la técnica de análisis de varianza que para un diseño factorial axb
con n réplicas resulta de descomponer la variación total como:
El factor (n−1) en los grados de libertad de la suma de cuadrados del error SC E señala que se necesitan
al menos dos réplicas del experimento para calcular ese componente y, por ende, para construir una tabla
de ANOVA. Recordemos que las sumas de cuadrados divididas entre sus correspondientes grados de
libertad se llama cuadrados medios CM. Al dividir éstos entre el cuadrado medio del error CM E se
obtienen estadísticos de prueba con distribución F. Toda esta información se sintetiza en la siguiente
tabla:
Considere que:
1
A=
2n
[ ab+a−b−( 1 ) ]
1
B=
2n
[ ab+ b−a− (1 ) ]
1
AB=
2n
[ ab+ (1 )−a−b ]
pág. 171
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 172
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #95: Considere la investigación del efecto de la concentración del reactivo y de la cantidad del
catalizador sobre la conversión (rendimiento) de un proceso químico. Sea la concentración del reactivo
el factor A, y sean 15 y 25 por ciento los dos niveles de interés. El catalizador es el factor B, con el nivel
alto denotando el uso de 2 libras del catalizador y el nivel bajo denotando el uso de 1 libra. Se hacen tres
réplicas del experimento, y los datos son los siguientes:
Factor Réplicas
Combinación de Total
A B I II III
tratamientos
15 (-) 1 (-) A bajo, B bajo (-1,-1) 28 25 27 80
25 (+) 1 (-) A alto, B bajo (1,-1) 36 32 32 100
15 (-) 2 (+) A bajo, B alto (-1,1) 18 19 23 60
25 (+) 2 (+) A alto, B alto (1,1) 31 30 29 90
Solución:
(-1,1) (1,1)
60 b 90 ab
Cantidad de
catalizador B
80 (1) 100 a
(-1,-1) Concentración del (1,-1)
reactivo A
Datos:
Cálculos:
1
A=
2n
[ ab+a−b−( 1 ) ]= 1 [ 90+100−60−80 ] =8.33333
2(3)
1 1
B=
2n
[ ab+ b−a− (1 ) ] = [ 90+60−100−80 ] =−5
2 (3)
1 1
AB=
2n
[ ab+ (1 )−a−b ] = [ 90+ 80−100−60 ]=1.66666
2(3)
pág. 173
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
El efecto de A (concentración del reactivo) es positivo; esto sugiere que al incrementar A del nivel bajo
(15%) al nivel alto (25%), el rendimiento se incrementará. El efecto de B (catalizador) es negativo; esto
sugiere que al incrementar la cantidad del catalizador que se agrega al proceso se reducirá el
rendimiento.
2
SC A =
[ ab+a−b−( 1 ) ] =
[ 90+ 100−60−80 ] 2
=208.33333
4n 4 (3 )
SC B =
[ ab+b−a−( 1 ) ] =
[ 90+ 60−100−80 ]2
=75
4n 4(3)
2
SC AB =
[ ab + ( 1 )−a−b ] =
[ 90+80−100−60 ] 2
=8.33333
4n 4 (3)
a b n 2
T ... 108900
SCT =∑ ∑ ∑ T ijk −¿
2
=9398− =323 ¿
i=1 j=1 k =1 4n 12
pág. 174
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
F, df1=1, df2=8
0.4
0.3
Densidad
0.2
0.1
0.05
0.0
0 5.318
X
Conclusión: “Con un nivel de significancia del 5%, existe suficiente evidencia estadística para
determinar que la concentración del reactivo y la cantidad del catalizador afectan significativamente el
rendimiento en el proceso. El factor que se debe analizar es la concentración del reactivo”.
pág. 175
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Total 11 323.000
pág. 176
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Gráfica de distribución
F, df1=1, df2=8
0.4
0.3
Densidad
0.2
0.1
0.05
0.0
0 5.318
X
Coeficientes codificados
EE del
Término Efecto Coef coef. Valor T Valor p FIV
Constante 27.500 0.571 48.14 0.000
Concentración 8.333 4.167 0.571 7.29 0.000 1.00
Catalizador -5.000 -2.500 0.571 -4.38 0.002 1.00
Concentración*Catalizado 1.667 0.833 0.571 1.46 0.183 1.00
r
Estructura de alias
Factor Nombre
A Concentración
B Catalizador
Alias
I
A
B
pág. 177
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
AB
Pareto de los efectos para Réplicas
AB
0 1 2 3 4 5 6 7 8
Efecto estandarizado
90 2
Porcentaje
Residuo
50
0
10
-2
1
-5.0 -2.5 0.0 2.5 5.0 20 25 30 35
Residuo Valor ajustado
2
3
Frecuencia
Residuo
2
0
-2
0
-2 -1 0 1 2 3 1 2 3 4 5 6 7 8 9 10 11 12
Residuo Orden de observación
pág. 178
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
31
30
Media de Réplicas
29
28
27
26
25
24
23
A bajo A alto B bajo B alto
30
28
26
24
22
20
A bajo A alto
Concentració
pág. 179
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
Ejemplo #96: Un bacteriólogo está interesado en los efectos de dos medios de cultivo diferentes y dos
tiempos diferentes sobre el crecimiento de un virus particular. Realiza seis réplicas de un diseño 2 2,
haciendo las corridas de manera aleatoria. Analizar los datos del crecimiento viral que se presentan
enseguida y sacar las conclusiones apropiadas. Analizar los residuales y comentar la adecuación del
modelo. α=0.05
Factor Réplicas
pág. 180
Análisis de Datos Experimentales | M. en C. José Antonio Cuatepotzo Varela
pág. 181