Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Minitab Curso
Minitab Curso
REPRESENTACION DE DATOS
A menudo, las mediciones son hechas con una muestra de ‘n’ artículos tomados de un gran conjunto
de artículos. Este gran conjunto se denomina „población‟. Por ejemplo, se puede haber tomado una muestra
de 100 lapiceros de un lote de 10,000 producidos, con el objeto de efectuar mediciones de la calidad de
lapiceros. Generalmente se desea “generalizar” los resultados obtenidos de la muestra hacia la población
de la cual fue extraída. Esta generalización se denomina inferencia de la muestra a la población. La
inferencia solo es posible si la muestra es totalmente representativa de la población. Por ejemplo, de la
muestra de 100 lapiceros se concluye que el 1% de esa muestra (1 lapicero) presenta defectos al escribir.
De esto se infiere que en el lote de 10,000 lapiceros, 100 de ellos presentaran defectos al escribir. El
conjunto de datos obtenidos debe ser organizado, resumido y mostrado antes de que se intente alguna
interpretación. Gráficos de ploteo y diagramas son muy útiles para observar adecuadamente la información
obtenida.
En lo referente a notación, n representa el número de observaciones en un conjunto de datos; las
observaciones están representadas por una variable con subíndice; por ejemplo, X1, X2 , …,Xn . Así, la
representación de cinco valores, n = 5, de la resistencia a la fractura de una aleación medidas por un
ingeniero será: X1 = 2310; X2 = 2325, X3 = 2315, X4 = 2340, X5 = 2335 (en unidades psi).
1
1.1.2. Principios generales sobre construcción de gráficas
1. Las gráficas se han de explicar enteramente por si mismas.
2. Las escalas vertical (ordenada) y horizontal (abscisas) estarán rotuladas con claridad dando las
unidades y con los mismos intervalos para las ordenadas y abscisas respectivamente.
3. No se debe abarcar demasiada información en un solo gráfico. Es mejor hacer varios gráficos que
comprimir demasiada información en uno solo.
4. La finalidad de las gráficas es dar una visión general y no una imagen detallada del conjunto de datos.
5. Debe evitarse la inclusión de números dentro del cuerpo de la gráfica.
Ejemplos:
P
rod
ucció
ndetrig
oym
aizenlaG
ran
jaX
XX P
rod
ucc
iónd
etr
igoyma
ize
nlag
ran
jaX
XX
3
00 280
T
RIG
O
M
AIZ
2
60 240
2
20 200
160
1
80
Fanegas
1
40
Fanegas 120
80
1
00
40
6
0 T
R IGO
1
9701
9711
9721
9731
9741
9751
9761
9771
9781
9791
980 0
19701971197219731974197519761977197819791980 M
AIZ
A
ño
A
ño
Figura Nro..... Gráfica de series de tiempo de producción de la granja XXX Figura Nro......: Grafico de barras de producción de
la granja XXX
Sup
erfic
iesd
ezo
n a
sde
lmund
o
U
RSS
,7,9
A
frica
,11
,7
S
uda
m erica
,6,9
O
cea
nía
,3,3
A
sia
,10
,4
N
ortea
m erica
,9,4 E
uro
pa,1
,9
2
Tanto los datos continuos como los discretos se conocen como datos cuantitativos. Por otra parte, los
dos tipos de datos restantes, los ordinales y los nominales, son datos cualitativos y se les convierte a
números antes de trabajar con ellos.
Los datos nominales comprenden categorías como sexo, color de ojos o de piel, animales con o sin
síntoma de determinada enfermedad, con defecto o sin defecto, turno de producción, lote producido, etc.
Los datos ordinales o jerarquizados se refieren a evaluaciones subjetivas según preferencia o logro.
Por ejemplo si un investigador desea analizar el efecto de cierta lesión cerebral sobre la conducta materna
de ratones, puede establecer como criterio de evaluación la calidad de nido que construye: excelente,
bueno, regular o malo. Estos términos son reducidos luego a números, (1, 2, 3,…) calificándose así las
características que se evalúa.
Es interesante observar que algunas poblaciones pueden proporcionar los cuatro tipos de datos, por
ejemplo:
A pesar de la clasificación señalada, para la mayor parte de las aplicaciones estadísticas, basta con
clasificar los datos como cuantitativos y cualitativos.
Es importante destacar en este punto que según el tipo de datos que se este analizando, la evaluac ión
estadística difiere. Es así que existe tratamiento estadístico de datos si estos son discretos; si son datos
continuos, el tratamiento difiere en cierta medida. Estos tipos de datos se tratan respectivamente por la
Distribución Binomial y la Distribución Normal.
Para construir el diagrama circular se procede a dividir el circulo de acuerdo a las proporciones dadas,
º º º
así 360 equivale al 100%; 216 equivale al 60 %, 72 al 20%, etc. Para distinguir las distintas regiones se
utilizan diferentes colores o puntos, rayas, cruces, etc. El diagrama de barras representa los datos
estableciendo barras que se levantan desde la abscisa hasta una altura correspondiente al dato a representar,
como se muestra en la Figura 1.1.:
D
ia
gra
m aCirc
ula
r D
ia
gra
m ad
eBa
rra
s:D
is
trib
ució
ndeA
nim
ale
spo
rCo
lor
D
istrib
ució
ndeA
nim
ale
spo
rCo
lor 6
0
P
ardos
,5,0%
5
0
N
egros
,15,0%
4
0
3
0
2
0
M
anc
hados
,20,0% Bla
ncos
,60,0%
1
0
0
Bla
nco
s M
an
cha
dos N
egro
s Pa
rdo
s
D
ia
gra
mad
ePa
reto
T
ip
osd
eFa
lla
s
2
7
2
4
2
1
1
8
1
5
1
2
9
Frecuencia
6
3
0
F C A E D B O C
ANT
4
V
enta
s19
82a1
991
1
35
1
30
1
25
1
20
1
15
VENTAS
1
10
1
05
1
00
9
5
9
0
1
982 1
983 1
984 1
985 1
986 1
987 1
988 1
989 1
990 1
991
A
ÑO
C
artad
eCo
ntro
l:Ob
serva
ció
nvs. C
oncen
tra
ció
n
1
05
1
01.0
1
00
9
5
9
1.4
5
9
0
Concentración
8
5
8
2.0
8
0
7
5
1 5 1
0 1
5 2
0 2
5 3
0
Ob
serv
ació
n
En la carta de control de la Figura 1.4 el marco visual de referencia proporcionado por la línea central y
los límites de control, indica que algún cambio o perturbación alrededor de la muestra 20 ha tenido efecto
sobre el proceso, ya que todas las observaciones que siguen están por debajo de la línea central, y mas
aún, dos de ellas se encuentran por debajo del límite inferior de control. Esto constituye un indicador muy
fuerte de que el proceso requiere de una acción correctiva. Si se puede encontrar y eliminar la causa que
originó el cambio, podrá mejorarse de manera considerable el rendimiento del proceso.
Las cartas de control son una aplicación muy importante de la estadística para la vigilancia, control y
perfeccionamiento de un proceso. La rama de la estadística que hace uso de las cartas de control se
conoce como Control Estadístico de Procesos, CEP. Estos métodos son procedimientos para vigilar la
variación de un proceso y para generar información de la estabilidad del proceso, ya que un proceso
5
inestable resultará en la producción de artículos defectuosos, baja calidad y en general, pérdida de la
confianza del consumidor.
Si bien es cierto las gráficas de control son recursos excelentes para resolver problemas al facilitar el
mejoramiento de la calidad, también es cierto que su utilidad es limitada cuando se trata de monitorear y
mantener un proceso.
1
,8
1
,6
1
,4
1
,2
VOLUMEN(Litros)
1
,0
0
,8
0
,6
0
,4
0
,2
0,0 0
,6 1
,2 1
,8 2
,4 3
,0 3
,6
P
RES
ION(Kg
/cm
2)
Tabla 1.2 (a): Resistencia a la compresión de bloques de concreto (100 libras por pulgada cuadrada). Tal
como se obtuvieron los datos.
48.2 53.9 50.0 44.5 42.2 42.3 32.3 31.3 60.9 47.5
43.5 37.9 41.1 57.6 40.2 45.3 51.7 52.3 45.7 53.4
51.0 45.7 45.9 50.0 32.5 67.2 55.1 58.6 48.6 50.3
45.1 46.8 47.4 38.3 41.5 44.0 62.2 62.9 56.3 35.8
38.3 33.5 48.5 47.4 48.6 41.3 55.2 52.1 34.3 31.6
38.2 46.0 47.0 41.2 38.8 48.4 48.2 32.8 47.9 43.3
48.3 54.5 54.1 44.5 46.2 44.4 45.1 41.5 43.4 38.1
38.1 41.6 43.1 43.7 48.8 37.2 33.6 28.7 33.8 37.4
43.5 44.2 53.0 45.1 51.9 56.6 48.5 38.0 47.3 48.8
6
Tabla 1.2 (b): Resistencia a la compresión de bloques de concreto (100 libras por pulgada cuadrada). Tabla
ordenada.
28.7 34.3 38.1 41.6 44.0 45.7 47.4 48.8 51.9 55.2
31.3 35.8 38.1 42.2 44.2 45.7 47.4 48.2 52.1 56.3
31.6 37.2 38.8 42.3 44.4 45.9 47.5 48.2 52.3 56.6
32.3 37.4 40.2 43.1 44.5 46.0 47.9 48.3 53.0 57.6
32.5 37.9 41.1 43.3 44.5 46.2 48.4 50.0 53.4 58.6
32.8 38.2 41.2 43.4 45.1 46.8 48.5 50.0 53.9 60.9
33.5 38.3 41.3 43.5 45.1 46.9 48.5 50.3 54.1 62.2
33.6 38.3 41.5 43.5 45.1 47.0 48.6 51.0 54.5 62.9
33.8 38.0 41.5 43.7 45.3 47.3 48.8 51.7 55.1 67.2
El diagrama de puntos es una gráfica muy útil para visualizar un conjunto pequeño de datos. Las
gráficas permiten ver con rapidez y facilidad la ubicación o tendencia central de los datos, así como su
dispersión o variabilidad. A menudo estos diagramas son útiles al comparar dos ó más conjuntos de datos.
Si el número de observaciones es pequeño, a menudo es difícil identificar algún patrón específico; sin
embargo, el diagrama de puntos es útil y puede proporcionar información sobre características poco usuales
de datos. Cuando el número de observaciones es moderadamente grande, pueden ser más útiles otros
tipos de gráficas.
1.00
0.80
32 40 48 56 64
Resistencia a compresión
Para las 90 observaciones este diagrama no sería muy útil por la gran cantidad de puntos que tendrían
que agruparse en una escala corta. Para gran cantidad de datos es mejor construir una Tabla de
distribución de frecuencias, como se muestra en la Tabla 1.3 y graficar los resultados en forma de un
histograma como se muestra en la Figura 1.7.
Para determinar la frecuencia de distribución, primero se ordena las observaciones de menor a mayor,
Xmin, Xmax. El rango de los datos se establece según:
Este valor de R muestra un valor de la extensión de la variabilidad. El rango de los datos se divide en
intervalos, los cuales se conoce como intervalos de clase o celdas. Las clases deben tener el mismo ancho
con la finalidad de mejorar la información visual en la distribución de frecuencias. El número de intervalos
depende del número de observaciones y de la dispersión de los datos. También dependerá del número de
observaciones que se tenga, por lo que se podrá tener más intervalos con menores longitudes con mayor
cantidad de datos. Se ha visto que en muchos casos resulta satisfactorio usar entre 5 y 20 clases, y que el
número de clases debe aumentar en función de n. En la práctica se obtiene buenos resultados si se hace la
selección del número de clases aproximadamente igual a:
Nro. de clases n
En el ejemplo, se determina 10 intervalos, cada uno de los cuales con un ancho de 4. La primera clase se
inicia en 28.0 a 32 (sin incluir 32), la segunda de 32 a 36 (sin incluir 36), etc. La clase final corresponde
64.0 - 68.0. Los puntos finales de cada celda se denominan límites de celda y el valor central de cada celda
el punto medio. Luego se cuenta el número de valores que pertenecen a cada clase y se elabora una tabla
de distribución de frecuencia. Por convención, si el valor de una observación corresponde exactamente a un
límite, se respeta la designación del intervalo cerrado al comienzo y abierto al final. Así cada observación
caerá en alguna de las clases establecidas. En la tabla se anotara la frecuencia, fi, es decir, el número de
ocurrencia de observaciones en cada clase. La frecuencia relativa, fi/n resulta de dividir la frecuencia
respectiva entre el total de observaciones. La frecuencia acumulada se obtiene de:
7
i
f cum f J f 1 f 2 ... f i (i 1, 2,..., k )
J 1
i
f cum 1
n
n
f
J 1
J
Un histograma esta formado por un conjunto de rectángulos que representan la frecuencia de una
categoría; representa gráficamente las frecuencias correspondientes a los valores observados. En el
histograma, según la Figura 1.7, se gráfica en la abscisa las clases y en la ordenada o bien la frecuencia o
la frecuencia relativa. El histograma muestra como están distribuidos los valores de la variable de interés;
condensa la información en forma tal que la comprensión visual se hace muy fácil mostrando los valores
típicos, dispersión y forma de la distribución.
En la Figura 1.8 se gráfica la frecuencia acumulada vs. los límites superiores de cada intervalo.. Una
ojiva es la línea que conecta los puntos. Las zonas de mayor pendiente en la curva respectiva,
corresponden a las clases más frecuentes. La frecuencia acumulada muestra por ejemplo que 36 de 90
observaciones (ó 40 %de las observaciones) son menores que 44. Similarmente, que 89 de 90 (98.8 %de
las observaciones) son menores que 64. La definición de frecuencia acumulada implica que la ojiva no es
decreciente y siempre se encuentra entre 0 y 1.
El histograma de la Figura 1.7 es aproximadamente simétrico, con un solo pico o „joroba‟ en la parte
media. Este pico representa a la clase de mayor frecuencia, que en el ejemplo corresponde a la clase del
44 al 48. El punto medio de la clase es el 46, el cual se denomina „moda‟ y representa el valor más
frecuente en el conjunto de datos. Este tipo de distribuciones con un solo pico en el medio son muy
comunes. Lo son tanto que muchas de ellas se les denomina distribuciones normales.
Los histogramas de la Figura 1.9 (a) (b) tienen un solo pico pero no son simétricas. Se dicen que son
distribuciones sesgadas a la izquierda o la derecha. Pueden corresponder a índices de mortalidad humana,
la que es mayor a ciertas edades. El histograma de la Figura 1.9(c) presenta dos picos o dos modas. A este
8
tipo de histogramas se les denomina „bimodales‟. Pueden explicarse, por ejemplo, por la presencia de dos
diferentes tipos de procesos, dos máquinas diferentes, o que las condiciones de una fábrica varia.
H
istogramaparaB
loque
sdeConc
reto O
jivaPa
ralo
sda
tosd
eResisten
ciaalaC
omp
resió
n
1
,0
2
4
2
2
2
0 0
,8
1
8
1
6
0
,6
1
4
1
2
Frec.Acum.Relat.
Frecuencia
1
0 0
,4
8
6
0
,2
4
2
0
,0
0 2
5 3
0 3
5 4
0 4
5 5
0 5
5 6
0 6
5 7
0
24 2
8 3
2 3
6 4
0 4
4 4
8 5
2 5
6 6
0 6
4 6
8
R
esis
ten
ciaalaC
omp
res
ión
Re
siste
nciaalaC
omp
resió
n(1
00lb
/pu
lg2
)
Figura 1.7: Histograma para las mediciones de Figura 1.8: Gráfico de los datos de resistencia
a la
resistencia a la compresión compresión, frecuencia acumulada.
(a) (b)
(c)
Una distribución de frecuencias dice también cual es la variación de los datos. Contesta a la pregunta
¿cuánta variación existe?. Si una distribución es pequeña y la otra grande, estando ambas dibujadas en la
misma escala horizontal, ello significa que la primera tiene menos variación que la segunda, Figura 1.9.
9
Figura 1.10: Distribuciones de variabilidad menor y mayor respectivamente.
Una característica adicional de una distribución por frecuencias es la simetría de sus variaciones. La
distribución puede ser simétrica o estar cargada a uno de los lados. Si se trata del segundo caso, se dice
que la distribución es asimétrica. Una distribución asimétrica tiene un solo pico, pero esta situado en el
extremo superior o inferior de ella. Cuando la cola más larga de la curva se encuentra a la derecha, se dice
que es asimétrica a la derecha o asimétrica positiva. Cuando la cola más larga de la curva esta a la
izquierda, la curva es asimétrica a la izquierda o asimétrica negativa.
El modelo positivamente asimétrico es muy común en los datos económicos y comerciales; por
ejemplo la distribución del ingreso familiar; o también el número de tiendas que venden al por menor es
mayor que las tiendas que venden al por mayor, sin embargo estas últimas registran mayores cantidades de
ventas.
Un histograma condensa la información de modo que sea fácil su comprensión visual. Los
histogramas pueden exhibir cierta sensibilidad con respecto al numero de clases y ancho. Para conjuntos de
pequeños de datos, los histogramas pueden cambiar claramente de apariencia si el número de clases o el
ancho de estas cambia. Los histogramas son más estables si el conjunto de datos es grande, de preferencia
de 75 a 100 o más datos. Sin embargo, frecuentemente es necesario sintetizar la información de modo
„numérico‟ para caracterizar los datos de manera estadística. En especial, se requiere de medidas de
centralización y de dispersión.
EJERCICIOS GRUPO 1
1. Los siguientes datos muestran el número de toneladas de materiales transportados por vía acuática a un
país en 1972:
PRODUCTO CANTIDAD, MILES DE TON
Petróleo y derivados 63,150
Carbón 20,100
Acero 13,800
Arena y grava 11,700
Fibras 7,650
Madera 4,650
Químicos 8,700
Conchas marinas 1,650
Otros 18,600
10
a) Construya una tabla de porcentajes para los datos anteriores y calcule la porción a asignar a cada
categoría.
b) Construya un diagrama de barras y una gráfica de pastel para los datos anteriores.
2. La distribución en la siguiente Tabla nuestra el número de accionistas de una empresa, clasificados por el
número de acciones que poseen:
a) Construya una tabla de porcentajes para los datos anteriores y calcule la porción a asignar a cada
categoría.
b) Construya un diagrama de barras y una gráfica de pastel para los datos anteriores.
3. Aproximadamente dos tercios de los accidentes automovilísticos se deben a una inadecuada forma de
conducir. Construya un diagrama de Pareto para los siguientes datos: (a) Dar vuelta en sentido incorrecto:
3.6%; (b) Velocidad de manejo excesiva para las condiciones imperantes: 28.1 %; (c) Distancia insuficiente
entre dos vehículos: 8.1 %; (d) Violaciones a la indicaciones de preferencia: 30.1 %; (e) Ocupar carriles de
la izquierda o permanecer al centro: 3.3 %; (f) Rebasar mal : 3.2 %; (g) Otras causas: 23.6 %.
4. Un equipo de proyecto estudia el costo que implicaría las descomposturas en una línea para embotellar
bebidas refrescantes. El análisis en miles de dólares correspondientes a tres meses son: (a) Regulador de
presión: 30; (b) Ajuste de gusano de alimentación: 15; (c) Atoramiento de la cabeza de cobre: 6; (d)
Pérdidas de enfriamiento: 52; (e) Reemplazo de válvulas: 8; (f) Otras: 5. Construya un diagrama de Pareto.
5. Los siguientes datos corresponden a la resistencia a la tensión (100 psi) y dureza (Rockwell E) de aluminio
moldeado en matriz. Dibuje un diagrama de dispersión y defina la relación respectiva:
(0.5; 1.62), (1.5; 0.75), (2.0; 0.62), (3.0; 0.46), (2.5; 0.52), (1.0; 1.00), (0.8; 1.35), (1.2; 0.89), 2.8; 0.48), (3.2;
0.43), (1.8; 0.71), (0.3; 1.80). Dibuje un diagrama de dispersión y defina la relación correspondiente.
6. Los datos de la cantidad de agua utilizada, (en pulgadas) y el rendimiento de alfalfa en toneladas por acre,
son las siguientes:
Agua 12 18 24 30 36 42 48 60
Rendimiento 5.3 5.7 6.3 7.2 8.2 8.7 8.4 8.2
7. Los datos siguientes representan el número de ciclos transcurridos hasta que se presenta una falla en una
prueba de piezas de aluminio sujetas a un esfuerzo alternante repetido de 21,000 psi a 18 ciclos por
segundo:
1115 1567 1223 1782 1055 798 1016 2100 910 1501
1310 1883 375 1522 1764 1020 1102 1594 1730 1238
1540 1203 2265 1792 1330 865 1605 2023 1102 990
1502 1270 1910 1000 1608 2130 706 1315 1578 1468
1258 1015 1018 1820 1535 1421 2215 1269 758 1512
1315 845 1452 1940 1781 1109 785 1260 1416 1750
1085 1674 1890 1120 1750 1481 885 1888 1560 1642
Construya una tabla de frecuencias y un histograma para los datos anotados.
11
8. Los siguientes datos son mediciones de viscosidad de un producto químico tomadas cada hora (de arriba
abajo y de izquierda a derecha):
9. La siguiente tabla muestra las velocidades orbitales de los planetas de nuestro sistema solar. Representar
estos datos con el gráfico apropiado.
Planeta Velocidad,
Millas/seg.
Mercurio 28.7
Venus 21.8
Tierra 18.5
Marte 15.0
Júpiter 8.1
Saturno 6.0
Urano 4.2
Neptuno 3.4
Plutón 3.0
12
CAPITULO II
_
Nótese que la suma de las desviaciones de cada muestra con respecto al promedio, x i x debe dar cero;
esto es:
n _ n _
( x x) x ( n x)
i 1
i
i 1
i 0
Se puede imaginar al promedio como el punto de balance que mantiene una barra completamente
horizontal. Es decir, los valores de las observaciones de un lado de la media igualan a los valores de las
observaciones del otro lado de ella.
Si consideramos las 10 primeras observaciones de la Tabla 1.2 (Cap. I), se encuentra que:
_
454.1
x 45.41
10
y para el conjunto de las 90 observaciones, el promedio es 45.54.
Un inconveniente del promedio es que se ve muy afectado por la presencia de un solo dato que se
encuentre muy lejos del conjunto de las observaciones. Así por ejemplo, si en vez de escribir 50.0, por error
se escribe 5.00, el promedio de 10 observaciones baja hasta 40.91, siendo el real 45.41.
b. Media Ponderada
Teóricamente, todas las medias aritméticas son promedios ponderados. Si no se asignan pesos
específicos a todos y cada uno de los valores de una serie, a cada una se le asigna un peso igual a 1. Al
computar la media aritmética con datos agrupados, las frecuencias de clases pueden considerarse como
una serie de pesos para los puntos medios. Cuando se usan pesos diferentes en el cómputo, puede decirse
apropiadamente que la media aritmética es ponderada.
En algunas circunstancias, no todas las observaciones tienen el mismo peso. Sean los valores X1, X2
,..., Xn asociados a pesos w1, w2,..., wn que dependen de la significación e importancia de esos números; en
este caso:
13
Xw
w1 X 1 w2 X 2 ... wn X n
wX
w1 w2 ... wn w
c. Media a partir de datos agrupados
Debido a que los valores individuales de la muestra se pierden al agruparse, para calcular la media
aritmética se usa los puntos medios o centros de clase como representantes de clase. En consecuencia,
si mi es el centro de clase y fi la frecuencia de clase, la media aritmética se define como:
K
f m f m f 3 m3 ... f n mn f i mi
X 1 1 2 2 i 1
n n
donde k es el número de clases.
d. Media geométrica, G
La media geométrica de una serie de „n‟ números, x1,x2,...,xn, es la raíz N-ésima del producto de los
números:
n
G n x1 x 2 ...x n n Xi
i 1
La media geométrica se emplea por ejemplo en microbiología para calcular títulos de disolución
promedio y para promediar cantidades en forma de proporciones y tasas de crecimiento o de cambios y en
general cuando convenga hacer una transformación logarítmica. La computación de la media geométrica se
facilita reduciendo la fórmula a su forma logarítmica:
Puede observarse que la media geométrica sólo es significativa para conjunto de observaciones que
son todos positivos. La media geométrica se adapta especialmente a las razones de promedios, índices de
cambio y series distribuidas logarítmicamente. En ciertos casos especiales de razones de promedios o
porcentajes, como la computación del índice de precios, la media geométrica puede dar resultados
significativos y lógicos que la media aritmética no da.
La media geométrica da igual ponderación a las tasas iguales. Es decir, al promediar tasas de cambio
geométricamente, la tasa que muestra el doble de su base es compensada por otra muestra la mitad de su
base ; la tasa que muestra cinco veces su base, es compensada por otra que muestra un quinto su base; y
así sucesivamente. Las tasa de cambio son ordinariamente expresadas en porcentajes. Puesto que la base
para cada proporción expresada en porciento es siempre igual a 100%, el promedio de dos proporciones las
cuales se compensan, deberá ser 100 % también. El siguiente cuadro da una ilustración de que la media
geométrica proporciona una mejor respuesta que la que proporciona la media aritmética:
14
Elemento Unidades venidas Tasa de cambio
1984 1985 1984 (base) 1985
A 5 yd 25 yd 100 % 500 %
B 50 lb 10 lb 100 % 20 %
e. La Media Harmónica.
Si se toma el recíproco del valor de cada partida, se calcula la media aritmética de los recíprocos y se
toma el recíproco de esta media, el resultado se conoce como media harmónica. O más
sintéticamente, la media harmónica es el recíproco de la media aritmética de los recíprocos de las
observaciones. La formula es:
1 1 n
H
1 / x1 1 / x 2 ... 1 / x n (1 / x) (1 / x)
n n
Para facilitar los cálculos se puede utilizar:
1 1 / x1 1 / x2 ... 1 / xn
(1 / x)
H n n
1 1 / 2 1 / 4 1 / 8 7
H 3 24
H 3.43
Para los mismos datos, la media aritmética es 4.7 y la media geométrica es 4. Para cualquier serie
cuyos valores no sean iguales y que no tengan ningún valor de cero, la media harmónica es siempre menor
que la media aritmética y la media geométrica. Así, la media harmónica se considera que tiene una
tendencia hacia abajo, en tanto que la media aritmética la tiene hacia arriba.
La media harmónica se utiliza en el cálculo de tasas medias de tiempo en ciertas condiciones y
ciertos tipos de precios. También se adapta bien a una situación en que las observaciones se expresan
inversamente a lo que se requiere en el promedio; es decir cuando por ejemplo, se desea el costo medio
por unidad , pero los datos muestran el número de unidades producidas por cantidad de costo. Obsérvese
la siguiente ilustración que describe lo señalado.
Supóngase que se ha gastado lo siguiente:
- Un dólar por 3 docenas de naranjas;
- Un dólar por 4 docenas de naranjas;
- Un dólar por 5 docenas de naranjas.
De esto resulta que los precios por docena son respectivamente: 33 ½ , 25 y 20 centavos, cuyo promedio
es:
(33 ½ + 25 + 20)/3 = 26 centavos. Siendo que se compró 12 docenas de naranjas, resultaría que 26 *12 =
3.12 dólares sería el cálculo de pago efectuado, lo cual contradice la realidad que correspondió a 3.0
dólares. Se puede observar que los datos expresan „tantas docenas por dólar‟. Estas son expresiones
inversas; en consecuencia el promedio puede obtenerse por la media harmónica, según:
1 1 / 33.33 1 / 25 1 / 20
0.04
H 3
H 25 centavos
Se puede comprobar que la media aritmética ponderada también da resultados precisos.
15
f. Mediana
Es una medida de centralización mucho menos sensible a variaciones en una observación. La mediana
es la observación del medio cuando las observaciones se ordenan en forma creciente en un grupo impar de
n observaciones. Si n es par, la mediana es el promedio de las dos observaciones intermedias.
Sean X1, X2 ...Xn una muestra acomodada en orden creciente de magnitud, entonces la mediana se
define como la parte media , ó:
X ([n 1] / 2 ) impar
Med X ( n / 2 ) X (([n / 2 ]1)
par
2
Si se toma por ejemplo las 10 primeras observaciones de la Tabla 1.2 (Cap. I) y se les ordena
crecientemente, se tiene:
31.3 32.3 42.2 42.3 44.5 47.5 48.2 50.0 53.9 60.9
46.0
La sensibilidad de la mediana es mucho menor que el promedio a las variaciones por error de alguno de
los datos. En el ejemplo de la Tabla 1.2 (Cap. I), la mediana es el promedio de los valores de las posiciones 45
y 46 y corresponde a 45.5.
La característica típica de la mediana es que divide la distribución en dos partes iguales. En este
sentido, la mediana es también un punto de equilibrio. Así, la mediana es especialmente signific ativa para
describir observaciones que se anotan o puntúan, como tasas, calificaciones y clasificaciones, en vez de
contarse o medirse. Sin embargo, no tiene sentido para datos completamente cualitativos.
g. Moda
Representa el valor más frecuente en el conjunto de datos. En un histograma, el pico representa la
clase de mayor frecuencia; el punto medio de esta clase, también se llama moda. En el ejemplo de los
bloques de concreto, la mayor clase es la que corresponde al intervalo [44 – 48] y el punto medio de esta
clase ea 46 que corresponde a la moda.
Puesto que la moda es el punto de mayor concentración, la moda es el promedio más común para una
distribución. A causa de esta propiedad, la moda carece de significado si la distribución no tiene un gran
número de observaciones. La moda es un promedio muy inestable y su verdadero valor es difícil de
determinar.
Para distribuciones simétricas, el promedio, la mediana y la moda tienen aproximadamente el mismo
valor. Para el caso particular de las 90 observaciones de la resistencia a la compresión de los bloques de
concreto se tiene:
_
x 45.54 ; Med = 45.5; Moda = 46.0
Para las distribuciones sesgadas, estos valores no son iguales. Para una distribución positivamente
asimétrica, la media tiene el valor más grande, la moda el más pequeño y la mediana aproximadamente un
tercio de la distancia de la media a la moda. Para una distribución negativamente asimétrica, la media es
menor, la moda es mayor y la mediana se encuentra a una distancia de un tercio desde la media hacia la
moda.
La moda es con frecuencia el concepto que la mayoría de las personas tienen en mente cuando
hablan de promedios. El „consumidor medio‟ suele significar el consumidor que aparece con mayor
frecuencia en relación a su cuadro de consumo u otra cualidad; el tamaño modal de zapatos para hombre
es el tamaño típico comprado , porque más personas compraran ese tamaño que cualquier otro. Así, se usa
la moda con preferencia a otros promedios si se desea indicar el valor más típico de la serie.
h. Cuartiles.
La mediana (ya sea de una población ó de una muestra) divide a los datos en dos partes iguales.
También es posible dividir los datos en más de dos partes. Cuando se divide un conjunto ordenado de datos
en cuatro partes iguales, los puntos de la división se conocen como cuartiles. El primer cuartil o cuartil
inferior, q1, es un valor que tiene aproximadamente la cuarta parte (25%) de las observaciones por debajo
de el, y el 75% restante por encima de el. El segundo cuartil , q2, tiene aproximadamente la mitad (50%) de
las observaciones por debajo de él, a su vez equivale a la mediana. El tercer cuartil o cuartil superior tiene
aproximadamente tres cuartas partes (75%) de las observaciones por debajo de él. Al igual que en el caso
16
de la mediana, es posible que los cuartiles no sean únicos, y en tales casos, si dos observaciones
satisfacen la definición, se utiliza el promedio de ellas.
El rango intercuartil (q3 – q1) contiene el 50% central, con un 25% por debajo y otro 25% por arriba. A
menudo se emplea como medida de dispersión
h) Percentiles
Cuando un conjunto ordenado de datos se divide en cien partes iguales, los puntos de división reciben
el nombre de percentiles. El 100k-iésimo percentil pk, es un valor tal que al menos 100k% de las
observaciones están en el valor o por debajo de él, y al menos el 100(1-k)% están en el valor o por encima
de él.
Ejemplo:
Una serie de análisis químico de un gran lote de material tiene un contenido de 80 g de elemento útil
por tonelada del material. Para comprobar esta afirmación se toma 25 muestras del material con los
siguientes resultados:
77 81 76 86 79 79 80 77 89 77 78 85 80
75 79 88 81 78 82 80 76 83 81 85 79
Comprobar la ley promedio del concentrado y definir los cuartiles de la muestra tomada.
Los datos tomados se ordenan según:
75 76 76 77 77 77 78 78 79 79 79 79 80
80 80 81 81 81 82 83 85 85 86 88 89
1 25 3 3
posicion de q1 n 0.5 0.5 6.75 posicion de q3 n 0.5 25* 0.5 19.25
4 4 4 4
X X 77 78 X X 82 83
q1 6 7 77.5 p0.25 q3 19 20 82.5 p0.75
2 2 2 2
i 0.5
100 es el percentil de X i
n
4 0.5
X 4 77 es el cuarto valor 100 14 p014 77
25
19 0.5
X 19 82 100 74 p0.74 82
25
2.2. Variabilidad
La variedad no es sólo la sal de la vida, sino también la esencia de la estadística. Los datos
cuantitativos, materia prima para el análisis estadístico, se caracterizan siempre por diferencias de valor
entre las observaciones individuales. Estas diferencias cuantitativas son tan importantes como la tendencia
de las cifras a agruparse alrededor de un valor central en una serie. De igual modo que decimos que la
Estadística es la ciencia de los promedios, podemos decir igualmente que todos los métodos estadísticos
son técnicas para estudiar la variación.
La estadística es una disciplina a la que le concierne el proceso de obtener datos y comprender los
problemas en presencia de la variabilidad. Los métodos estadísticos tienen como propósito fundamental
entender la variabilidad. La variabilidad, o dispersión en mediciones y procesos, es un hecho de la vida.
17
Virtualmente todo proceso varía. Si los métodos de medición son suficientemente precisos, por ejemplo se
encontrará que el diámetro de pernos varia de uno a otro, el rendimiento de un proceso químico varía con el
tiempo, o que el porcentaje de artículos defectuosos varía de un lote a otro, etc.
Hay múltiples razones para la presencia de esta variabilidad. Proviene de ligeras diferencias en las
condiciones en las cuales se realiza la producción. La variabilidad puede reflejar diferencias en las materias
primas, diferencias entre maquinas u operadores, diferencias de las condiciones de operación por cambios
en variables tales como temperatura, humedad, presión, etc. También el muestreo puede ser una causa de
la variabilidad, puesto que esta operación aportará muestras representativas con diferentes características
cada vez que se realiza la operación. Ya que la variabilidad proviene de los procesos, es común referirse a
la variabilidad de procesos.
Parte de la variabilidad proviene de las operaciones de medición. Por ejemplo para determinar la
humedad de cierto pigmento, esta no tendrá exactamente el mismo valor luego de varias mediciones de la
misma muestra. Semejante fenómeno se verifica en todo proceso productivo. La variabilidad de medición es
el ruido que distorsiona la verdadera señal del proceso.
Por otro lado, mucha variación o variabilidad degrada la calidad de la producción y ocasiona pérdidas
a una empresa. Si un gran número de productos son producidos fuera de las especificaciones, y si los
productos no son inspeccionados antes de salir de una fábrica, entonces la empresa puede enfrentar los
siguientes problemas:
a) La cantidad de quejas se incrementa;
b) Recursos adicionales se deberán emplear para reparar los artículos que estén bajo garantía;
c) Los clientes buscarán un producto de mayor confiabilidad.
Producto
A
Frecuencia
Producto
B
18
varianza y la desviación estándar. Por ejemplo, considérese los datos de resistencia a la tensión (en psi)
de dos muestras, X, Y, de una aleación metálica:
La media de ambas muestras es 148 psi, sin embargo, en la Figura 2.2 se observa mayor variabilidad para
la muestra Y.
La variabilidad o dispersión es una parte natural e integral de toda medición. La más simple medida de
variación es el rango, definido como la diferencia entre la mayor y la menor de las observaciones. La
2
medida más común de la variabilidad es la varianza de muestra, s , y la desviación estándar de muestra,
_
s, que es la raíz cuadrada de la varianza. El cuadrado de la distancia x i x que es ( x i x ) 2 para las xi
_
observaciones con respecto al promedio general x proporciona alguna información sobre la variabilidad. La
varianza de muestra es un promedio especial del cuadrado de estas distancias. Para una muestra de n
determinaciones, x1, x2,...,xn se define como:
2
n
xi
xi i 1
n
1 _ 2
_ 2
_ 2
1 n _ 2
2
n
s n 1 x x x 2 x ... x n x xi x
2 i 1
1
n 1 i 1 n 1
y para una población con n determinaciones, se define como:
x
2
i
2 i 1
n
A pesar de haber definido la varianza como un promedio de n distancias, la sumatoria respectiva se
_
divide entre (n-1). Para justificar este procedimiento tengamos en cuenta que las n desviaciones ( xi x )
2
sumadas entre si dan cero. Por ello se necesitan solo (n-1) de estas desviaciones para calcular s . Además,
el utilizar el divisor (n-1) en lugar de n no representa una importante diferencia numérica si la cantidad de
observaciones es lo suficientemente grande.
2 2
Una varianza s 0 mide la separación de las observaciones alrededor del promedio. Si s = 0 se
2
dice que no hay ninguna variación porque las n observaciones deben ser las mismas. Ya que s es un
promedio de cuadrados, sus unidades son el cuadrado de las unidades de medición de x. Si por ejemplo x
2 2
es medida en Kg., s tiene unidades de Kg. .
La raíz cuadrada de la varianza de muestra proporciona la medida conocida como la desviación
estándar de muestra:
2
1 n _
s xi x
2
s n 1 i 1
Del ejemplo de los bloques de concreto tenemos que para las diez primeras observaciones:
_
x = 45.41; s2 = 82.62 y s = 8.1
y para las 90 observaciones:
19
_
x = 45.51; s2 = 58.74 y s = 7.66
En el ejemplo de los bloques de concreto, Tabla 1.2, para n = 10 observaciones, se encuentra que 7 de
las 10 observaciones caen dentro a una desviación estándar del promedio; las otras tres (31.3, 32.3 y 60.9)
caen fuera de estos límites. En general, se observa que algo más de la mitad de todas las observaciones
_
que se efectúen se encontraran dentro del intervalo ( x s ). Más de tres cuartos de las observaciones
_ _
caerán en el intervalo ( x 2 s ) y todas las observaciones caerán en el intervalo ( x 3 s ).
Es válido comparar las desviaciones estándar si deseamos comparar las dispersiones de dos ó más
series que tienen la misma o casi la misma media y que se expresan con la misma unidad. Sin embargo,
hay casos en que diferentes distribuciones pueden tener diferentes medias o se expresan en diferentes
unidades. Así resulta difícil comparar las desviaciones estándar. Por ejemplo, la desviación estándar de la
aleación X y la aleación Y de la Figura 2.2. son 12.57 y 38.76 respectivamente. Los valores absolutos de
estas variaciones alrededor de los promedios (300 % mayor una que la otra) no proporcionan la base de
una comparación adecuada. Para estos propósitos, la medida más adecuada es el cálculo del coeficiente
de variación CV que expresa la desviación estándar como porcentaje del promedio, según:
s s
CV _
ó % CV
*100 _
x x
Esta medida indica que las observaciones caen, en promedio, a aproximadamente CV % del promedio. Se
usa para comparar distribuciones con diferentes unidades o para comparar las dispersiones de dos
distribuciones diferentes. En el ejemplo de las 10 primeras observaciones de los bloques de concreto se
tiene que:
148
Figura 2.3: Manera en que la varianza mide la variabilidad mediante las desviaciones xi x
20
De los datos de la Figura 2.2, se tiene:
1 6
n 1 i 1
2
X i X 158 S X2
1 6
n 1 i 1
2
Yi Y 1502 SY2
Naturalmente, la muestra Y presenta mayor dispersión o variabilidad de los datos, lo cual se observa
en el diagrama de puntos y en los valores calculados de la varianza.
Tabla 2.1 (a) Datos de los meses anteriores para la producción de Pellets; malla por la que pasa el 80 % de
la producción diaria. Datos tal como se obtuvieron.
48.4 46.2 68.5 61.1 45.5 34.1 50.9 56.8 54.1 45.0
32.9 43.7 50.4 54.8 32.8 50.7 48.8 71.5 60.5 41.8
53.2 30.2 61.3 35.0 65.2 50.7 76.0 68.5 30.5 48.5
54.7 31.8 58.1 30.2 47.0 45.0 35.8 54.7 52.7 66.3
41.3 31.8 64.4 58.3 48.9 38.3 48.5 66.5 50.0 54.3
73.3 60.8 43.4 65.0 51.3 58.9 58.5 48.0 54.2 58.3
53.5 51.6 48.3 53.1 60.8 70.2 38.8 56.1 54.1 54.1
65.5 58.9 72.1 46.8 53.0 38.2 51.1 38.4 54.6 45.2
50.8 34.5 54.6 41.2 45.6 52.1 56.7 60.8 55.9 43.8
36.8 62.8 50.1 58.9 53.9 62.5 67.2 33.2 60.0 37.2
64.8 58.7 73.0 45.5 40.1 44.7 51.0 45.8 55.9 55.2
54.1 50.1 47.3 58.3 54.7 54.2 44.0 62.3 61.5 58.8
35.9 48.4 35.5 55.8 37.8 52.2 54.2 62.2 32.6 55.0
34.0 38.6 58.9 46.3 43.6 47.9 60.2 57.4 54.4 53.5
58.8 47.1 56.1 62.0 52.2 38.0 56.5 36.6 58.0 45.9
54.8 37.2 48.1 28.4 52.9 58.8 50.5 53.5 43.9 58.0
41.9 58.6 57.8 58.6 38.8 43.8 47.0 48.7 38.4 54.8
55.1 42.1 45.6 50.9 74.0 48.4 51.3 65.8 45.7 28.8
68.7 58.8 50.7 37.4 43.1 41.9 46.4 53.6 60.0 62.9
50.2 58.1 43.6 58.0 44.3 62.6 61.7 57.1 60.5 22.4
Es muy útil para el análisis que sigue, ordenar los datos obtenidos, Tabla 2.1 (b). Esta operación
permitirá identificar el valor máximo y el valor mínimo y definir el rango como una medida de la variabilidad.
La mediana y los cuartiles también son fácilmente identificables con este ordenamiento.
Aglomerado de mineral hecho a partir de partículas finas de mineral.
21
Tabla 2.1 (b) Datos de los meses anteriores para la producción de Pellets; malla por la que pasa el 80 % de
la producción diaria. Datos ordenados.
22.4 36.8 43.1 45.9 48.9 52.2 54.6 57.4 58.9 62.9
28.8 37.2 43.4 46.2 50.0 52.7 54.6 57.8 58.9 64.4
28.4 37.2 43.6 46.3 50.1 52.9 54.7 58.0 60.0 64.8
30.2 37.4 43.6 46.4 50.1 53.0 54.7 58.0 60.0 65.0
30.2 37.8 43.7 46.8 50.2 53.1 54.7 58.0 60.2 65.2
30.5 38.0 43.8 47.0 50.4 53.2 54.8 58.1 60.5 65.5
31.8 38.4 43.8 47.0 50.5 53.3 54.8 58.1 60.5 65.8
31.8 38.6 43.9 47.1 50.7 53.5 54.8 58.3 60.8 66.3
32.6 38.8 44.0 47.3 50.7 53.5 55.0 58.6 60.8 66.5
32.8 38.2 44.3 47.9 50.7 53.6 55.1 58.6 60.8 67.2
32.9 38.3 44.7 48.0 50.8 53.9 55.2 58.7 61.1 68.5
33.2 38.4 45.0 48.1 50.9 54.1 55.8 58.8 61.3 68.5
34.0 38.8 45.0 48.4 50.9 54.1 55.9 58.8 61.5 68.7
34.1 40.1 45.2 48.5 51.0 54.1 55.9 58.8 61.7 70.2
34.5 41.2 45.5 48.3 51.1 54.1 56.1 58.8 62.0 71.5
35.0 41.3 45.5 48.4 51.3 54.2 56.1 58.3 62.2 72.1
35.3 41.8 45.6 48.4 51.3 54.2 56.5 58.3 62.3 73.0
35.8 41.9 45.6 48.5 51.6 54.2 56.7 58.5 62.5 73.3
35.9 41.9 45.7 48.7 52.1 54.3 56.8 58.9 62.6 74.0
36.6 42.1 45.8 48.8 52.2 54.4 57.1 58.9 62.8 76.0
Con estos datos, se obtiene los siguientes cuadros con información obtenida mediante el uso de un
programa estadístico de computadora; incluye la Tabla de Frecuencias e Histograma
22
El histograma de la Figura 2.5 muestra la distribución de los datos bajo la figura de una campana, lo
que demuestra una distribución normal de la producción de los pellets. Es evidente también la simetría
mostrada alrededor del intervalo [50, 55]. Este intervalo a su vez incluye al promedio de esta muestra.
El intervalo de especificación de producto pelletizado es [40, 50] m. De la Tabla 2.1(b) se puede
observar que X33 = 38.8 y X83 = 50.1 cuyos percentiles son 16.25% y 41.25% respectivamente. De esto
último se deduce que el 16.25% de la producción se encuentra por debajo del límite inferi or de
especificación y el (100 - 41.25) = 58.75% de la producción se encuentra por encima del límite superior de
especificación. Es decir, que el (16.25 + 58.75) = 75 % de los pellets son producidos fuera de los límites de
especificación.
Histograma:Distribuc
ióndelaProduc
cióndePe
lle
ts
4
8
4
4
4
0
3
6
3
2
2
8
Nodeobsservaciones
2
4
2
0
1
6
1
2
0
<=2
0 (2
0,2
5] (2
5,3
0] (3
0,3
5] (3
5,4
0] (4
0,4
5] (4
5,5
0] (5
0,5
5] (5
5,6
0] (6
0,6
5] (6
5,7
0] (7
0,7
5] (7
5,8
0] >8
0
M
allap
orlaq
uep
asael 8
0%,µm
Figura 2.5: Histograma de la producción de la planta pelletizadora de hierro.
Si bien, la simple determinación del promedio de tamaños nos da una indicación de la calidad de
producción, ese valor no es suficiente para el análisis de la producción. El dato más importante tal vez, es el
que nos indica que 75 de cada 100 pellets son producidos fuera de las especificaciones requeridas.
Como conclusiones del análisis realizado, se recomienda reducir el tamaño de descarga de los pellets a
tamaños alrededor de 45 m y reducir la variabilidad en el tamaño del producto, de modo que se produzcan
pellets más ajustados a los límites de especificación.
Dia
g ra
m ad
eca
jap
aralo
sdato
sdePe
lle
ts
85
75
65
55
45
35
M
ax=76
M
in=2
2.4
25 7
5%=5
8.6
5
2
5%=4
4.5
15
Ma
lla80%pa
ssing M
ed
ian=5
2.2
Figura 2.6: Diagrama de caja para los datos de la pelletizadora de mineral de hierro.
120
110
100
90
80
70
1 2 3
Figura 2.7: Diagramas de caja comparativos de un índice de calidad de tres plantas distintas.
a. Sesgo ó Asimetría.
El sesgo o grado de asimetría, es la falta de simetría de una distribución. Si la curva de frecuencias
de una distribución tiene una cola más larga a la derecha del máximo central que a la izquierda, se dice
que la distribución esta sesgada a la derecha o que tiene sesgo positivo. Si es al contrario se dice que
esta sesgada a la izquierda o tiene sesgo negativo.
En distribuciones sesgadas, la media tiende a situarse con respecto a la moda al mismo lado que la
cola más larga. Este parámetro proporciona un valor que indica falta de simetría en los datos. Su formula
general es:
X
h
3
i X
i 1
m3 n
a3 3
S S3
24
La asimetría es un número que indica el grado de desviación de la simetría. Si el valor de a 3 es cero,
los datos son simétricos; si es mayor de cero (positivo), los datos se inclinan hacia la derecha, lo cual
significa que la base larga está a la derecha; si es menor de cero (negativo), los datos se inclinan hacia
la izquierda, es decir, que la base larga de la curva está a la izquierda.
b. Curtosis.
Es la medida de agudeza de los datos; normalmente se toma en relación a la distribución normal.
Una distribución que presenta un apuntamiento relativo alto, tal como la de la curva de la Figura 2.8(a),
se llama leptocurtica, mientras que la curva de la Figura 2.8(b), que es más achatada, se llama
platicúrtica. La distribución normal de la Figura 2.8(c), que ni es muy apuntada ni achatada, se llama
mesocúrtica.
Una medida de curtosis emplea el momento de cuarto orden con respecto a la media, expresado en
forma adimensional y dado por :
X X
n
4
i
i 1
m4 n
a4 4
S S4
25
EJERCICIOS GRUPO 2
2
1. La fuerza de tensión (en lb/pulg ) de unas muestras de fibra sintética son:
12 15 18 16 15 14 16 17.
a) Construir el diagrama de puntos.
b) Calcular el promedio de muestra, varianza y desviación estándar.
3
2. A continuación se presentan los datos de consumo de O 2 (oxígeno) por el salmón (mm /hr):
105 95 94 112
83 80 96 93
69 71 108 75
94 84 102 94
Calcular la media, mediana, moda, varianza y desviación estándar.
3. Los siguientes son los números de imperfecciones observadas en 50 muestras, tomadas de rollos de telas:
2 0 4 4 1 4 0 3 2 0
0 1 1 1 0 1 2 4 1 1
1 5 2 2 5 3 4 0 4 0
0 0 3 0 1 4 2 1 2 0
3 1 3 4 2 0 5 6 3 2
a) Calcular la media, varianza, desviación estándar, mediana y moda.
b) Agrupar los datos en una tabla de frecuencias, mostrando clases, límites, frecuencias, frecuencias
acumuladas y % acumulado.
c) Construir una ojiva para los datos agrupados y calcular q1 y q3
4. Los siguientes datos son mediciones de viscosidad de un producto químico tomadas cada hora:
47.9 47.9 48.6 48.0 48.4 48.1 48.0 48.6
48.8 48.1 48.3 47.2 48.9 48.6 48.0 47.5
48.6 48.0 47.9 48.3 48.5 48.1 48.0 48.3
43.2 43.0 43.2 43.1 43.0 42.9 43.6 43.3
43.0 42.8 43.1 43.2 43.6 43.2 43.5 43.0
a) Construya un histograma y un diagrama de caja para esta serie de datos.
b) ¿Cuáles son los percentiles 90 y 10 de estos datos?
c) Las especificaciones sobre la viscosidad del producto son 48 2, ¿qué conclusiones puede obtener
sobre el desempeño del proceso?
5. Un fabricante de aleaciones metálicas esta preocupado por las quejas de sus clientes acerca de la falta de
uniformidad en el punto de fusión de filamentos metálicos producidos. 50 filam entos se seleccionaron y
sus puntos de fusión determinados. Los siguientes son los resultados obtenidos:
320 325 314 314 313 329 320 329 317 316
331 326 328 312 308 327 316 308 321 319
322 320 325 319 318 305 314 329 323 327
323 335 320 318 310 313 328 330 322 310
324 324 318 317 322 324 320 324 311 317
26
CAPITULO III
ESTADÍSTICA DESCRIPTIVA.
Si se mide la corriente que circula por un alambre de cobre delgado, lo que se está haciendo es un
experimento. Sin embargo, al repetir la medición durante varios días, los resultados que se obtienen son un
poco diferentes debido a pequeñas variaciones en las variables que no están controladas en el
experimento, como son los cambios de temperatura ambiente, ligeras variaciones en el instrumento de
medición y pequeñas impurezas en la composición química del alambre en distintas partes, además de las
variaciones de la fuente de corriente. En consecuencia se dice que este experimento, así como muchos
otros, tiene un componente aleatorio. En algunos casos, las variaciones aleatorias observadas son tan
pequeñas en relación con las metas del experimento, que pueden ignorarse. Sin embargo, la variación casi
siempre está presente y su magnitud puede llegar a ser tan importante a tal grado, que las conclusiones del
experimento no sean muy evidentes
Otro ejemplo de experimento es la selección de una pieza de la producción de un día y la medición con
bastante exactitud de la longitud de está. En la práctica pueden presentarse pequeñas variaciones de las
longitudes de las medidas, por muchas causas, tales como vibraciones, fluctuaciones de temperatura,
diferencias entre quienes toman las mediciones, calibraciones, desgastes en la herramienta de corte,
desgaste en los cojinetes y cambios en la materia prima. Incluso el procedimiento de medición puede
producir variaciones en los resultados finales.
En estos tipos de experimentos, las mediciones de interés, (la corriente en el alambre de cobre, la
longitud de una pieza maquinada), pueden representarse con una variable aleatoria. Es razonable modelar
el rango de los valores posibles de la variable aleatoria con un intervalo (finito o infinito) de números reales.
Por ejemplo, para la longitud de una parte maquinada, este modelo permite que las mediciones del
experimento produzcan cualquier valor dentro de un intervalo de números reales. Este intervalo puede
concebirse como un continuo de valores , en consecuencia se define que “si el rango de una variable
aleatoria X contiene un intervalo (ya sea infinito o finito) de números reales, entonces X es una variable
aleatoria continua.
27
Ejemplo: Sea E el suceso de que aparezcan los números 3 ó 4 en una sola tirada de un dado. Hay seis
casos que pueden presentarse, que son: 1, 2, 3, 4, 5 y 6. Los seis casos son igualmente posibles. Puesto
que E puede presentarse con dos de estos casos, entonces: p = P{E} = 2/6 = 1/3
Recuerdese que la probabilidad de un suceso es un número comprendido entre 0 y 1. Si el suceso es
imposible (no puede ocurrir) su probabilidad es cero. Si es un suceso cierto (tiene que ocurrir) su
probabilidad es uno.
La naturaleza del estudio que se considera en el presente curso, condiciona a que solo se aborde el
caso de variables aleatorias continuas, dejando de lado el tratamiento de variables aleatorias discretas.
1. f ( x ) 0
2.
f ( x ) dx 1
f (u) du
b
3. P( a X b)
a
Es decir, la probabilidad P(a X < b) es el área sombreada de la gráfica de f(x), Figura 4.1, para las
líneas verticales x = a y x = b. Esta área da la probabilidad de que X se encuentre entre a y b. En cierto
sentido, f(x) es el límite de la frecuencia relativa normalizada de un histograma al incrementarse el número
de clases y cuando los intervalos de clase tienden a cero.
f(x)
a b x
Figura 3.1: Gráfico de la densidad de probabilidad f(x). El área sombreada representa P(a X < b).
Ya que áreas tales como P(a X < b) para toda a < b, representan probabilidades, se requiere que el
área total debajo del gráfico de f(x) y x, sea igual a 1. Mas aún que las probabilidades son siempre
positivas, se necesita que: f(x) 0; x R. Es interesante observar que si el espacio bajo la curva
corresponde a un solo valor de x, x = b entonces:
b
P(X = b) =
f ( x) dx 0
b
Esto concuerda con lo intuitivo, porque si el espacio R es un intervalo con infinita cantidad de puntos, la
probabilidad de un solo punto en particular es cero.
3/4 1/4
1/2
28
La aguja al ser girada se detendrá en cualquier punto entre 0 y 1. Un modelo razonable para la variable
aleatoria X es f(x) = 1; x R = {x; 0 x < 1}, o de otra forma:
f(x) = 1; 0 x< 1
y
0. 7
. X 0.7) 1. dx 0.6
P(01
0.1
Hay ciertas convenciones que se usan en el contexto de la variables aleatorias continuas. Ya que en
un caso continuo P(X=x) = 0, para todo x R , se tiene que:
P(a < X < b) = P(a X < b) = P(a < X b) = P(a X b)
Esto es, se puede incluir o excluir los signos de igualdad en estas expresiones sin cambiar la probabilidad.
En el caso de la rueda giratoria, para:
0. 6 0. 6
P(X < 0.6) =
f ( x ) dx f ( x) dx 0.6
0
x 2
1 2
2
normalmente distribuida con promedio , y varianza . El gráfico de f(x) es la bien conocida curva de
2
campana o curva de Gauss mostrada en la Figura 4.2. El gráfico de N(, ) es simétrico para x = y
2
f(x)
2
Figura 3.2: Función de densidad de probabilidad de la distribución N(, ).
29
En general , se dice que X es N(, ) y se quiere determinar:
2
x 2
1
P a X b
b 2 2
e dx (2)
a 2
Si en la ecuación (2) hacemos que z = (x-)/ tal que x = + z y dx/dz = , (dx = dz) se tiene que:
z2
1
P a X b
b
e dz
2
(3)
a 2
Se puede observar que la integral de la ecuación (3) no es fácil de determinar por lo que se recurre al uso
de métodos numéricos. En Tablas aparecen tabulados los valores de esta integral para una distribución
N(0,1), (Función Estándar de Distribución Normal) representada por:
w2
1
( z ) P Z z
z
e dw
2
2
Una variable aleatoria normal con = 0 y = 1 recibe el nombre de variable aleatoria normal estándar y se
2
denota como Z.
Las distribuciones normales sólo varían con respecto a la media y/o la desviación estándar. La media
determina la posición de una curva sobre el eje horizontal. La desviación estándar determina el grado de
amplitud o dispersión entre los elementos. La Figura 4.3 (a) muestra dos distribuciones normales con
idénticas desviaciones estándar, pero con medias distintas. La Figura 4.3 (b) muestra dos distribuciones
normales con idénticas medias y diferentes desviaciones estándar
X
Valores de los elementos en la población
Figura 3.3 (a): Distribuciones estándar: medias diferentes y desviaciones estándar iguales.
X
Valores de los elementos en la población
Figura 3.3 (b): Distribuciones estándar: medias iguales y desviaciones estándar distintas.
Hay un número infinito de funciones de densidad normal, una para cada combinación de y . La
media mide la ubicación de la distribución y la desviación estándar mide la dispersión.
No es posible obtener una expresión de forma cerrada par la integral de la función de densidad normal.
Sin embargo, se puede calcular el área debajo de la curva normal utilizando procedimientos de
aproximación. Se dice entonces que:
30
Si X es una variable aleatoria normal con media y varianza , entonces:
2
X
Z
es una variable aleatoria normal con media cero y varianza 1. La variable aleatoria Z se denomina variable
normal estándar.
Las áreas de la variable normal estándar se dan en la Tabla A de los apéndices. Son las áreas bajo la
curva normal entre z = - y un valor cualquiera de z, valores que definen la probabilidad de algún evento.
Por ejemplo, la probabilidad (1.5) = 0.932 corresponde al área sombreada de la Figura 4.4
f(z)
z
-2 -1 0 1 z 2
x
Figura 3.4: Función de densidad de probabilidad.
Con esta notación se puede escribir una probabilidad determinada, como por ejemplo:
o sea, se determina el área hasta 1.5 en la fdp y se resta el área de la curva de - a -1. Debido a la simetría
de f(x) alrededor de z, es correcto que (-1.0) = 1 - (1.0), o en términos más generales:
(-z) = 1- (z)
Lo anterior corresponde a la distribución estándar N(0,1) . Supóngase ahora de que X es N( = 75, =
2
100) y queremos determinar P(70 < X <90). En estos casos, la Tabla respectiva puede ser utilizada según:
f(x)
99%
Debido a que más del 0.9973 de la probabilidad de una distribución normal está comprendida en el
intervalo ( - 3 < X < + 3), a menudo se hace referencia a la cantidad 6 como el ancho de la
distribución normal. El área que se está más allá de 3 de la media es muy pequeña
Un mejor entendimiento de la distribución normal y de sus parámetros y se logra con lo siguiente
evaluación de probabilidades. Si X es N(, ), para un valor k > 0 tenemos que:
2
( k) ( k)
P( k X k ) 2( k ) 1
32
_
3.4.1 Distribución del promedio de muestra, x
Considerando el promedio de una muestra de tamaño n:
1 n 1 1 1
X X 1 n X 1 n X 2 ... n X n
n i 1
tomada de una población de media y varianza 2, entonces X es un valor de una variable aleatoria cuya
distribución tiene media . Para muestras de población infinitas, la varianza de esta distribución es /n, o
2
lo que es lo mismo:
2
E ( X ) ; VAR ( X ) ; D.E.( X )
n n
_
esto es, el promedio de muestra x es el mismo que el de la distribución. Sin embargo, la varianza es la
_
minima de la distribución, pero dividida por el tamaño de la muestra. El promedio de muestra x es el más
_
común estimador del promedio de población , ambos valores, ( x , ) diferirán entre si cada vez que se
evalúe un promedio de muestra.
_ _
El hecho de que VAR( x ) = 2/n muestra que la variabilidad del estimador x alrededor del promedio
tiende a cero según que el número de observaciones en la muestra crezcan. Hacia el límite, cuanto más
grande sea n, el promedio de la población quedará determinado con mayor precisión.
Ahora bien, si X es un valor de una variable aleatoria de tamaño n, cuya distribución tiene media y
varianza 2 entonces:
X
Z
n
es el valor de una variable aleatoria cuya función de distribución se aproxima a la de la distribución normal
centrada y estandarizada (tipificada); es decir, X será N(0, 1). Esto implica que la combinación lineal de
variables aleatorias es también normalmente distribuida. Por lo tanto, si se toma una muestra de una
distribución normal con promedio y varianza 2 entonces la distribución de X es:
2
N ,
n
y la distribución de Z es N(0, 1)
n.
Para una determinada probabilidad, (1-) se puede encontrar un valor tal como z (/2) de la tabla
normal, tal que:
X
P z ( / 2) z( / 2) 1
n
33
P Z z( / 2) P Z z( / 2) / 2
Generalmente es una valor pequeño tal como 0.1, 0.05 ó 0.01.
De este modo, si (1 - ) = 0.95, entonces z ( /2) = z(0.025) = 1.96; y si (1 - ) = 0.90 entonces z ( /2) =
z(0.05) = 1.645.
Las desigualdades:
X
z ( / 2) z ( / 2)
n
son equivalentes a:
X z ( / 2) X z ( / 2)
n n
Así, las probabilidades para cada una de estas desigualdades es (1 - ). En particular:
P X z ( / 2) X z ( / 2) 1
n n
Obsérvese que X esta en los extremos de las desigualdades y el parámetro constante, pero desconocido
esta en el medio. Así, la probabilidad de que el intervalo aleatorio;
X z( / 2) , X z( / 2)
n n
incluya el promedio desconocido , es (1 - ). Para simplificar el intervalo, se le puede escribir:
X z ( / 2)
n
2 con varianzas 1 y 2
2 2
x
t
s
n
es el valor de una variable aleatoria que tiene una distribución t-Student de parámetro r = n - 1 grados de
libertad.
En este caso no se requiere conocer y se debe trabajar con una población normal.
La forma general de una distribución t es similar a la de una distribución normal; ambas tienen la forma
de campana y son simétricas con respecto a la media. Como la distribución normal tipificada o
estandarizada, la distribución t tiene media cero, pero su varianza depende del parámetro r ( según
nomenclatura de algunos autores) llamado número de grados de libertad. La fdp para la distribución t-
student con r grados de libertad es:
c
f (t ) t
( r 1)/ 2
1 t 2 / r
donde c es un valor tal que el área debajo de f(t) = 1. Se puede demostrar que E(t) = 0 y Var(t) = r/r-2 para
r>2. La varianza de t es mayor de 1 pero se aproxima a ese valor cuando n. Esta densidad se parece
mucho a la distribución N(0, 1), especialmente para valores grandes de r.
En la Tabla respectiva figuran los porcentajes mayores de probabilidades de cola, tal que:
35
x
P t ( / 2; n 1) t ( / 2; n 1) 1
s
n
lo que se puede escribir:
s s
P x t ( / 2; n 1) x t ( / 2; n 1) 1
n n
o sea que el intervalo;
s
xt ( / 2;n 1)
n
proporciona un 100(1-) de confianza para el intervalo en que se encuentre . De otro modo, ese es el
intervalo con (1-) de probabilidad para encontrar .
negativa, es de esperar una distribución muestral que no sea normal. Concretando se tiene:
"Si s2 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal, que
tiene varianza 2, entonces:
(n 1) s2
2
2
es el valor de una variable aleatoria que tiene distribución 2 con parámetro r = n - 1 llamado grados de
libertad"
En la Tabla respectiva se anotan valores seleccionados de 2(; r), donde el área bajo la curva de la
distribución 2 (tomada a la derecha) es igual a .
(n 1) S 2 (n 1) S 2
2
2 / 2, n 1 12 / 2, n 1
36
Por ejemplo, si 0.025 y 0.975 son los valores de 2 (llamados valores críticos), para que el 2.5% del
2 2
área se encuentre en cada cola de la distribución, entonces el intervalo de confianza al 95% para la
varianza es:
s 2 (n 1) s 2 ( n 1)
2
02.975,n 1 02.025,n 1
s n 1 s n 1
0.975,n 1 0.025,n 1
S 12 12 S 12
f 1 / 2; n2 1, n1 1 f / 2; n 2 1, n1 1
S 22 22 S 22
donde
f1 / 2; n2 1,n1 1 y f / 2; n2 1,n1 1 son los puntos críticos superior e inferior que corresponden al porcentaje /2
de la distribución F con n2-1 y n1-1 grados de libertad en el numerador y en el denominador respectivamente.
EJERCICIOS GRUPO 3
1. Hallar el área bajo la curva de distribución normal en cada uno de los siguientes casos:
a) Entre z = 0 y z = 1.2 e) A la izquierda de z = -0.6
b) Entre z = -0.68 y z = 0 f) A la derecha de z = - 1.28
c) Entre z = - 0.46 y z = 2.21 g) Entre z = 0.81 y z = 1.94
d) A la derecha de z = 2.05 y a la izquierda de z = - 1.44
37
2. Sea Z N(0,1). Determine:
a) P(-0.7 < Z < 1.3)
b) P(0.2 < Z < 1.1)
c) P(-1.9 < Z < -0.6)
5. Se tiene una población infinita con media µ = 53 y varianza 2 = 400. Cuál es la probabilidad de obtener
una muestra entre 5 y 56?
Rpta.: 0.5514.
6. Supóngase que las especificaciones del diámetro de un eje de motor son 0.25 0.002 pulgadas. Si la
producción de estos ejes esta distribuida normalmente con µ = 0.251 pulg. y = 0.001 pulg. Qué
porcentaje de los ejes se encuentran dentro de las especificaciones?
Rpta.: 84 %
7. Si los diámetros de cojinetes de bolas se distribuyen normalmente con media 0.6140 pulgadas y desviación
estándar 0.0025 pulgadas, determinar el porcentaje de cojinetes de bolas con diámetros:
a) Entre 0.610 y 0.618 pulgadas;
b) Mayor que 0.617 pulgadas;
c) Menor que 0.608 pulgadas.
Rpta.: a) 88.04 %; b) 11.51 %; c) 0.82 %
8. El peso promedio de cierta marca de carretillas es 31 Kg. Debido a la variabilidad de la materia prima y de
las condiciones de producción, el peso de estas carretillas es una variable aleatoria. Si la distribución es
normal con = 0.5 Kg:
a) Cuál es la probabilidad de que una muestra de carretilla aleatoriamente seleccionada pese más de 32.0
Kg?
b) Cuál es la probabilidad de que una muestra de carretilla aleatoriamente seleccionada pese entre 30.0 y
30.5 Kg?
Rpta.: a) 2.28 %; b) 13.59 %
8. La media de los diámetros interiores de una muestra de 200 arandelas producida por una máquina es de
0.502 pulgadas y la desviación estándar 0.005 pulgadas. El propósito para el que se destinan estas
arandelas permite una tolerancia máxima de en el diámetro de 0.496 a 0.508 pulgadas, de otro modo las
arandelas tienen que desecharse. Determinar el porcentaje de arandelas de desecho producidas por la
máquina, suponiendo que los diámetros se distribuyen normalmente.
Rpta.: 23.02 %
9.El espesor de placas metálicas es una variable de interés. Debido a muchos factores, tales como variaciones
en las características del metal, diferentes operarios y diferentes máquinas, el espesor varía y puede ser
38
considerado como una variable aleatoria con µ = 20 mm y = 0.04 mm. Cuánto de placas de desecho se
puede esperar si el espesor :
a) Tiene que ser por lo menos 18.95 mm?
b) Puede ser máximo 20.10 mm?
c) Pueden diferir máximo 0.05 mm del objetivo de 20 mm?
d) Como se establecerían los límites de tolerancia, (20 - c) y (20 + c), de tal modo que se produzca un
máximo de 5 % de desechos?
e) Asúmase que el promedio se ha desplazado a µ = 20.10 mm. Calcular el porcentaje de placas metálicas
que excedan los límites de tolerancia de la parte (d) de este problema.
Rpta.: a) 9.56 %; b) 0.62 %; c) 21.12 %; d) [18.92; 20.784]; e) 70.54 %
_
11 El promedio y la desviación estándar de 42 exámenes de ingreso son x = 680, s = 35. Encontrar a 99% de
confianza el intervalo para el promedio poblacional.
Rpta.: [666.1; 693.9]
12. Las medidas de los diámetros de una muestra al azar de 200 cojinetes de bolas hechos por una
determinada máquina durante una semana dieron un promedio de 0.824 pulgadas y una desviación
estándar de 0.042 pulgadas. Hallar los límites de confianza para el diámetro medio de todos los cojinetes
al:
a) 95 %; b) 99 %
Rpta.: a) [0.818; 0.8298]; b) [0.816; 0.832]
13. Una compañía tiene 500 cables. Un ensayo con 40 cables elegidos al azar dieron una media de resistencia
a la rotura de 2400 lbs y una desviación estándar de 150 lb. Cuáles son los límites de confianza al 95 y 99
% para estimar la media de la resistencia a la rotura de los 460 cables restantes?
Rpta.: a) [2353.51; 2446.49]; b) [2338.81; 2461.19]
14. Si una variable U tiene una distribución de t-Student con r = 10, hallar el valor de la constante C, tal que:
a) P(U>C) = 0.05 b) P(-C U C) = 0.98 c) P(U C) = 0.9
Rpta.: a) 1.812; b) 2.764; c) 1.37
15. Una muestra de 12 medidas de resistencia a la rotura de hebras de algodón dio una media de 7.38 onzas
y una desviación estándar de 1.24 onzas. Hallar los intervalos de confianza para la resistencia real, al:
a) 95 %; b) 99 %.
Rpta.: a) [6.59; 8.17]; b) [6.268; 8.492]
16. Cinco medidas del tiempo de una reacción química fueron registradas como 0.28, 0.30, 0.27, 0.33, 0.31
segundos. Hallar los límites de confianza para el tiempo real de reacción al:
a) 95 %; b) 99 %.
Rpta.: a) [0.268; 0.328]; b) [0.249; 0.347]
Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa es afectada por
el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la desviación estándar de la
concentración activa es de 3 g/l, sin importar el tipo de catalizador utilizado. Se realizan 10 observaciones
con cada catalizador, y se obtienen los datos siguientes:
Catalizador 1: 57.9; 66.2; 65.4; 65.4; 65.2; 65.6; 67.6; 63.7; 67.2; 71.0
Catalizador 2: 66.4; 71.7; 70.3; 68.3; 64.8; 68.6; 68.6; 64.9; 65.3; 68.8
¿Existe alguna evidencia que indique que las concentraciones activas medias dependen del catalizador
utilizado?
Rpta.: a) [-5.08; 0.1797]; No existe evidencia.
39
El administrador de un lote de automóviles prueba dos marcas de llantas radiales. Para ello asigna al azar
una llanta de cada marca a las dos ruedas posteriores de ocho automóviles y luego corre los automóviles
hasta que las llantas se desgastan. Los datos obtenidos en kilómetros son :
31.La desviación estándar de la duración de 10 bombillas fabricadas por una compañía es de 120 hor as.
Hallar los límites de confianza para la desviación estándar de todas las bombillas fabricadas por la
compañía al:
a) 95 %; b) 99 %.
Resolver este problema si para 25 bombillas se encuentra s = 120 horas.
Rpta.: a) [82.54; 219]; [93.7; 166.38]
32. Dos compuestos de caucho fueron probados para resistencia a la tracción. Se prepararon 14 muestras
rectangulares, 7 para cada una de las muestras A y B. Durante la experimentación se observó que dos
espécimenes de B estuvieron defectuosos por lo que se les eliminó de la prueba. La fuerza de tracción ( en
unidades de 100 psi) fueron como sigue:
A = 32 30 33 32 29 34 32
B = 33 35 36 37 35
Calcular al 90 % de confianza el intervalo para 12 / 22 . Comente los resultados.
Rpta: [0.2143; 5.82]; no hay diferencia entre las dos varianzas.
40
CAPITULO IV
- La hipótesis del no cambio (hipótesis nula), que establece que sigue siendo 30 minutos; y
- La hipótesis alternativa que sugiere que < 30 minutos.
29 30
P X 29
1
01587
.
esa distribución. Continuando la toma de datos se evalúa n = 5 trabajadores, para los cuales X 29min.
Luego se toma n = 25 trabajadores que presentan X 29 min. Reiterando que X proviene de N(30, 1), la
Esto hace que para una N(30, 1), con n = 25, X 29 min. es un evento extremadamente improbable.
Ciertamente, esto quita consistencia a la hipótesis de que sigue siendo 30 minutos. Por ello se puede
afirmar que, efectivamente, el tiempo de ensamblaje de cada trabajador se ha reducido.
En términos técnicos, se dice que: los cambios efectuados en el proceso productivo originan una
diferencia estadísticamente significativa en el tiempo de ensamblaje; o bien, que la diferencia en el tiempo
de ensamblaje, 30 - 29 = 1 es estadísticamente significativa.
Es necesario aclarar que una diferencia estadísticamente significativa no siempre es de utilidad
práctica; ya que por ejemplo, la reducción de 01 minuto en el promedio no podría representar ahorros
importantes en el proceso productivo. La decisión final de adoptar los cambios concierne a una evaluación
de estructura de costos, que estas técnicas estadísticas no pueden resolver.
u
385 400
Según esto, es importante hacer notar que x puede exceder los 400 ft2 aunque sea menor que 385 ft2 o
que x sean menor que 385 ft2 y que exceda los 400 ft2 . Esto ilustra el hecho de que los errores son
inevitables cuando las decisiones se toman apoyándose en los resultados de muestras aleatorias.
Consecuentemente, estos errores pueden ser de dos tipos diferentes y se describen esquemáticamente en
la siguiente figura:
42
u se encuentra u se encuentra
en la zona de en la zona de
aceptación rechazo
Nótese que si esta en el intervalo de indiferencia, no hay ningún error grave, cualquiera sea la decisión
tomada.
Para juzgar las ventajas de cualquier criterio de decisión, es esencial conocer las probabilidades de
tener errores del Tipo I y del Tipo II. Estas probabilidades se denotan con y respectivamente:
= P[Error tipo I]
= P[Error tipo II]
Para efectuar una prueba con un nivel de significación se escoge una región crítica (es decir una
_
región de rechazo de Ho ) para x < c, tal que:
P[ x c;
o] =
_
Ya que bajo Ho x es N(o,2/n), la región crítica esta dada por:
_
X o
z ( )
n
donde z() es el punto superior de porcentaje de N(0, 1).
La cantidad:
_
X o
Z
n
43
se denomina el estadístico estandarizado o tipificado. Si este estadístico es un valor menor de - z(), se
rechaza Ho y se acepta H1. Por el contrario, si Z es mayor que -z() , se dice que no hay suficiente
evidencia para rechazar H1, por lo que se acepta Ho.
En general, las regiones críticas para contrastar Ho : o se pueden expresar como se indica
en la Tabla 4.1:
Para entender la correcta orientación de la región crítica, el siguiente la Figura 4.1 es muy útil para el
caso de Ho : o y H1 : o.
Rechaza Acepta
Ho Ho
Distribución de
muestra de x bajo
Ho(
x
c µo
Figura 4.1: Ilustración gráfica de la prueba Ho :
o versus H1 :
o
En la Figura 4.1, c representa el valor crítico. La región a la derecha de este punto es la región de
aceptación de Ho y la región a la izquierda de c es la de aceptación de H1 . El punto c es tal que la
probabilidad de rechazar Ho es . El gráfico muestra que el valor crítico c debe ser menor que o y es
determinado por:
c o z ( )
n
El valor de depende de cada aplicación. Un valor muy frecuentemente utilizado es = 0.05. si altos
costos están asociados a la evaluación, conviene utilizar valores más pequeños de . Sin embargo, para
valores pequeños de implica un valor alto de z() y la prueba se torna muy conservadora, tal que se
rechaza Ho solo en casos muy extremos.
Otra forma de conducir las pruebas de hipótesis es utilizando el concepto de valor de probabilidad o el
valor 'p'. Por ejemplo, en el caso de disminución de tiempos de ensamblaje de un producto, si x = 28.68
para N(30, 1), se puede obtener un valor p, tal que:
_
_ x o 29.68 30
p P[ X x ] P Z P Z ( 1866
. ) 0.031
1
n 34
En este caso se rechaza Ho si el valor de p es menor que . = 0.05 (es decir para un nivel de significación
de 0.05). Esto se ilustra en la Figura 4.2.
44
Rechaza Acepta
Ho Ho
= 0.05
p = 0.031
c x
µo
_
x = 29.68 29.72
30
z (0.031) z (0.05)
(-1.866) (-1.645)
Figura 4.2: Ilustración del valor de probabilidad o el valor 'p'.
Acepta Rechaza
Ho Ho
x
µo c
Si se quiere probar a un nivel de significación ., se requiere que una probabilidad de falso rechazo de
Ho sea ., es decir:
X o c o
P[ X c; o ] P Z
n n
45
_
X o
z ( ) o equivalentemente
n
_ _ X o
valor p P X x; o 1
n
x
c µo
Figura 4.4: Ilustración gráfica de la prueba Ho :
o versus H1 : o
46
Acepta Rechaza
Ho Ho
r grados de
libertad
x
µo t(r)
2 2
muestra, S1 , S 2 . En este caso se toma en consideración los grados de libertad r1 = n1 - 1 y r2 = n2-1, y
bajo la hipótesis nula Ho : o , la variable aleatoria:
47
_ _
x y
T
n1 1S x2 n2 1S y2 1 1
n1 n2 2 n1 n2
tiene una distribución t-Student t( ; n1 + n2 - 2 ). Si se rechaza Ho: o y se acepta H1 :
o , cuando T +t( ; n1 + n2 - 2 ) se obtiene una prueba con nivel de significación .
Similarmente, en una prueba Ho: o versus H1 : o , se acepta H1 cuando T -t( ;
n1 + n2 - 2 ). En una prueba Ho: o versus H1 : o , se acepta H1 cuando T t( ;
n1 + n2 - 2 ).
1 - 2 y varianza w Las variables W1, W2,...,Wn son independientes (provienen de diferentes objetos).
2
W
T
Sw n
donde Sw es la desviación estándar de las diferencias, W. Una prueba de hipótesis por ejemplo puede ser
Ho:
W Sw
n t , n 1
o versus H1 : o . Se acepta H1 si Si n es
suficientemente grande, se puede utilizar la distribución normal.
Supóngase que se tiene interés en dos poblaciones normales independientes, donde las medias y
varianzas de la población, 1 , 1 , 2 y , 2 son desconocidos. Se desea probar las hipótesis sobre la
2 2
igualdad de las dos varianzas H : 1 2 por ejemplo. Si se tienen dos muestras aleatorias de tamaño n
2 2
o 1
S x2 y S y2
tomada de la población 1, y otra de tamaño n2 proveniente de la población 2 y sean las respectivas
varianzas muestrales. Para probar las alternativas:
H0 : 21 22
H1 : 12 22
48
se utiliza el estadístico:
S2
F 12
S2
H0 : 21 22 S x2 S y2 F ; n1 1, n2 1
y se acepta H1 : 1 2 si
2 2
Se rechaza
49
EJERCICIOS GRUPO 4
1. Se desea contrastar la hipótesis µ = 0 frente a la alternativa µ >0 sobre la base de una muestra aleatoria de
tamaño 9 obtenida de una población normal con 2 1 a un nivel de significación de 0.05. Verificar cual de
_
las alternativas es la correcta. Rpta.: H 1 es cierta si x >0.55
2. Se desea contrastar la hipótesis µ = 0 frente a la alternativa µ >0 sobre la base de una muestra aleatoria de
_
tamaño 100 obtenida de una población normal con 2 1 . Si la hipótesis se debe rechazar cuando x >
0.233, cuál es el nivel de significación empleado? Rpta.: = 0.01
4. La duración media de una muestra de 100 tubos fluorescentes producidos por una compañía resulta ser de
1,570 horas con una desviación estándar de 120 horas. Si el promedio histórico de los tubos producidos por
la compañía es de 1,600. Verificar si la duración de los tubos es inferior a 1,600 horas a un nivel de
significación de 0.05. Rpta.: La duración de focos es inferior.
7. Se estudia el rendimiento de un proceso químico. De la experiencia previa con este proceso se sabe que la
desviación estándar del rendimiento es 3. En los cinco días anteriores de operación de la planta, se han
observado los siguientes rendimientos:
91.6% 88.75% 90.8% 88.95% 91.3%
a) ¿Existe evidencia de que el rendimiento no es del 90% con = 0.05?.
b) Cuál es el valor p de esta prueba?
Rpta.; (a) No; (b)0.6406]
9. En el pasado una máquina ha producido arandelas con un grosor de 0.05 pulgadas. Para determinar si la
máquina sigue en buenas condiciones de producción, se toma una muestra de 10 arandelas que resultan
tener un grosor medio de 0.053 pulgadas y una desviación estándar de 0.003 pulgadas. Ensayar la
hipótesis de que la máquina este en buenas condiciones de producción a un nivel de significación del 0.05.
Rpta.: , 0.05
11. Se analizan dos catalizadores para determinar la forma en que afectan el rendimiento promedio de un
proceso químico. De manera específica, ella catalizador 1 es el que se está empleando en este momento;
pero el catalizador 2 también es aceptable. Debido a que el catalizador 2 es más económico, éste puede
adoptarse siempre y cuando no cambie el rendimiento del proceso. Se hace una prueba en una planta
piloto; los resultados obtenidos son:
¿Existe alguna diferencia entre los rendimientos promedio de ambos catalizadores al 0.05 de significación?
Rpta.: No existe diferencia.
50
14. Un ensayo sobre la resistencia a la rotura de 6 cuerdas fabricadas por una compañía mostró una
resistencia media de 7,750 lb y una desviación estándar de 145 lb, mientras que el fabricante sostenía que
la resistencia media de sus cuerdas era de 8,000 lb. Se puede admitir la afirmación del fabricante a un nivel
de significación a) del 0.05; y b) del 0.01?
Rpta.: (a) =8000 lb.
15. Un laboratorio de pruebas desea contrastar si el promedio de vida de cierta herramienta de corte es de
2,000 piezas, frente a la alternativa de que es menos de 2,000. Qué conclusión se d eberá obtener a un
nivel de significación del 0.01, si 6 pruebas mostraron como vidas de las herramientas 2010, 1980, 1920,
2005, 1975, y 1950 piezas?
Rpta. : = 2000
16. Se afirma que la resistencia de un alambre eléctrico se puede reducir como mínimo en 0.05 ohms aleando
el material. Se hacen 25 pruebas en alambre aleado y otras tantas en alambre sin aleación, dando los
siguientes resultados:
Media, ohms Desviación estándar, ohms
Alambre aleado 0.089 0.003
Alambre sin 0.141 0.002
aleación
Empleando un nivel de significación del 0.05 de determinar si esa afirmación es cierta.
Rpta.: 1 - 2 > 0.05
51
CAPITULO V
Una muestra es una pequeña porción de un lote de material, el cual contiene todos los componentes,
en la misma proporción que existe en el original. El objeto de cualquier procedimiento de muestreo es
obtener un porción representativa del todo. Las propiedades analizadas de la muestra pueden ser usadas
para predecir o pronosticar las propiedades de la población de la cual la muestra fue extraída.
El control de calidad de cualquier industria se basa en procedimientos de muestreo constantes y
regulares. Además, es necesario un conocimiento de estadística aplicada para el caso que se desee
pronosticar las características de la población a partir de los resultados de muestreo. El rol del análisis
estadístico es grande en cualquier tecnología donde se desee establecer la validez de un conjunto de datos
de pruebas experimentales y donde se requiera tomar decisiones.
El muestreo y la inferencia estadística son utilizados en circunstancias en las cuales no es factible
obtener información de todos los integrantes de una población, tales como en el análisis químico y biológico,
control de calidad industrial ó investigaciones sociales. El método más elemental de muestreo es el
muestreo aleatorio, basado en la teoría de probabilidades. Según esto, cada elemento de la población que
es muestreada tiene la misma probabilidad de ser seleccionado. Por ejemplo, en una clase de 50
estudiantes, para obtener una muestra aleatoria de ese grupo, cada estudiante tiene exactamente la misma
probabilidad, 1/50, de ser seleccionado.
Las prácticas deficientes de muestreo son una causa primordial de inexactitudes en los valores
calculados. Desafortunadamente, el muestreo preciso requiere de grandes cantidades de materiales, lo que
hace del muestro una tarea difícil y costosa. El costo de las instalaciones y personal para el muestreo es
directo y tangible, pero los beneficios de un muestreo preciso, aunque indirectos, menos tangibles y de corto
alcance, pueden ser más significativos. Como los análisis numéricos pueden obtenerse con tanta facilidad
sobre muestras deficientes que sobre muestras buenas, fácilmente se genera un falso sentido de seguridad
en la mente del ingeniero en la oficina, cuando solamente ve los resultados numéricos y no observa como
fueron tomadas las muestras en el campo.
La composición del material que se mueve en un proceso es característicamente irregular, excepto en
casos muy especiales. Idealmente un proceso continuo operando en estado uniforme deberá dar un flujo de
materiales uniforme, pero no se puede suponer tal estado; son necesarios el muestreo y el análisis para
conocer las características reales de la población que se analiza.
Solución:
La probabilidad de obtener un número de frijoles negros de una muestra total se calcula m ediante la
siguiente expresión:
n!
P( x negro) p x q n x
x !(n x )!
donde:
p = probabilidad de que haya un frijol negro en la población.
q = probabilidad de que haya un frijol blanco en la población
x = número de frijoles negros en la muestra extraída
n = tamaño de la muestra.
10
p 01
. ; q 1 01
. 0.9; n 10
100
Para x = 0, es decir, cero negros y diez blancos:
10!
P(0 negros) . ) 0 (0.9) 10 0.349
(01
0! 10!
10!
P(1 negro) . ) 1 (0.9) 9 0.387
(01
1! 9!
Similarmente:
P (2 negros) 0194
.
P (3 negros) 0.057
P (4 negros) 0.011
Obsérvese que en una muestra de 10 frijoles, obtener un frijol negro y nueve blancos, sería una
muestra representativa del total, y esta combinación tiene una probabilidad de 0.387, o sea, se tiene
aproximadamente 39 % de posibilidades de obtener una muestra totalmente representativa del todo.
Obsérvese ahora el problema del muestreo de otra manera. Se tiene un recipiente con 250 frijoles
negros y 750 frijoles blancos. Los frijoles negros representan al elemento de interés y los blancos a los
demás constituyentes de una población. Se sacan del recipiente muestras de 100 frijoles y se contabiliza el
53
número de frijoles negros de cada muestra extraída. Se repite el procedimiento por 1,000 veces. Los
resultados reales del experimento se dan en la Tabla 5.1. y se comparan con los resultados teóricos que se
obtienen utilizando la formula:
n!
P( x negro) p x q n x
x !(n x )!
Tabla 5.1: Valores reales y calculados del experimento de extracción de frijoles.
54
n= 100 negros= 250 p= 0.25
total= 1000 q= 0.75
Acum Acum
x n-x P(x) P(x) *1000 REAL P(x) P(x)*1000
9 91 0.000 0 0.000 0
10 90 0.000 0 0.000 0
11 89 0.000 0 0.000 0
12 88 0.001 1 0.001 1
13 87 0.001 1 0.002 2
14 86 0.003 3 0.005 5
15 85 0.006 6 6 0.011 11
16 84 0.010 10 10 0.021 21
17 83 0.017 17 12 0.038 38
18 82 0.025 25 22 0.063 63
19 81 0.037 37 35 0.100 100
20 80 0.049 49 48 0.149 149
21 79 0.063 63 61 0.211 211
22 78 0.075 75 78 0.286 286
23 77 0.085 85 89 0.371 371
24 76 0.091 91 100 0.462 462
25 75 0.092 92 100 0.553 553
26 74 0.088 88 94 0.642 642
27 73 0.081 81 84 0.722 722
28 72 0.070 70 72 0.792 792
29 71 0.058 58 57 0.850 850
30 70 0.046 46 44 0.896 896
31 69 0.034 34 31 0.931 931
32 68 0.025 25 24 0.955 955
33 67 0.017 17 14 0.972 972
34 66 0.011 11 9 0.984 984
35 65 0.007 7 5 0.991 991
36 64 0.004 4 3 0.995 995
37 63 0.002 2 2 0.997 997
38 62 0.001 1 0.999 999
39 61 0.001 1 0.999 999
40 60 0.000 0 1.000 1000
41 59 0.000 0 1.000 1000
42 58 0.000 0 1.000 1000
90
Frecuencia (Nro. de muestras)
80
70
60
50
40
30
20
10
0
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41
Nro. de frijoles negros por muestra de 100
De estos resultados tabulados se puede observar que si se sacan 1,000 muestras, solamente 92 de las
1,000 representarían correctamente el valor de la población; es decir, 92 muestra contienen 25 frijoles
55
negros y 75 blancos cada una. Sin embargo, las otras 908 muestras también serían valores verdaderos,
causales o al azar y no pueden ser descartados.
La Figura 5.2 describe la distribución normal de la extracción de frijoles, según los valores calculados y
los valores reales observados. Nótese la gran aproximación existente entre ambos gráficos. Obsérvese
también que la gran mayoría de extracciones caen en el intervalo [19, 31] frijoles negros en una muestra de
100. Asociado este concepto de probabilidad a una operación de muestreo, el obtener una muestra
totalmente representativa del total tiene muy bajas probabilidades; mas bien, la mayoría de muestras
obtenidas adecuadamente se distribuirán en un rango determinado alrededor del verdadero valor.
Ejemplo: Para ilustrar el procedimiento, se tomara los 10 primeros datos de la Tabla 1.2 de Resistencia a la
Compresión de Bloques de Concreto. Estos datos ordenados según su posición ordinal son como sigue:
Orden 1 2 3 4 5 6 7 8 9 10
Valor 31.3 32.3 42.2 42.3 44.5 47.5 48.2 50.0 53.9 60.9
56
Tabla 5.2. Primeras 10 observaciones de la Tabla 1.2 de Resistencia a la compresión de bloques de
concreto y sus valores normales.
Observación Posición i 0.5 Valor Normal
Pi
n
48.2 7 0.65 0.39
53.9 9 0.85 1.04
50.0 8 0.75 0.67
44.5 5 0.45 -0.13
42.2 3 0.25 -0.67
42.3 4 0.35 -0.39
32.3 2 0.15 -1.04
31.3 1 0.05 -1.64
60.9 10 0.95 1.64
47.5 6 0.55 0.13
Probabilidad Normal
2.0
1.5
Valor normal
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
20 30 40 50 60 70
Observaciones
Ya que los datos exhiben una relación lineal bastante buena, se puede aceptar con seguridad que los
datos provienen de una distribución normal.
b). El Criterio Q.
Puede utilizarse para rechazar una medida sobre un población de 3 a 10 medidas de una cantidad a
cualquier nivel de confianza, aunque en circunstancias normales se utiliza el 90%; es decir, si se rechaza
una medida según este criterio, se hace con una confianza del 90%. Para el aplicar el criterio Q se
ordenan las medidas en orden creciente, tomándose los valores más divergentes , superior e inferior ,
calculándose el rango (Mn – M1) y con el los cocientes Q para el mayor y menor valores, según:
57
M 2 M1 M n M n 1
Q1 Q2
M n M1 M n M1
Como los valores que podrían eliminarse son M1 ó Mn, el criterio Q se aplica a ambos. Estos valores se
comparan con los que se anotan en la Tabla Nro. 5.3. Si Q1 y Q2 son mayores que el valor dado en la
Tabla, el dato puede ser rechazado con cierto límite de confianza; por ejemplo, si Q1 tiene un valor de
0.60 y el número de datos, n = 7, el dato puede ser eliminado con un límite de confianza del 90%.
Tabla Nro. 5.3: Valores de Q para rechazar datos con límite de confianza del 90%
Número de Q90%
observaci
ones
3 0.94
4 0.76
5 0.64
6 0.56
7 0.51
8 0.47
9 0.44
10 0.41
Ejemplo: Se efectúan 6 determinaciones de Fe en una misma muestra mineral, siendo los resultados los
siguientes:
% Fe 14.28 14.20 13.99 13.18 13.92 14.30
58
P X z ( / 2) X z ( / 2) 1
n n
lo que se puede graficar según:
X z ( / 2 ) / n
X z ( / 2) / n
h z ( / 2) / n
De ésta última expresión se tiene:
2 z ( / 2)
2
n
h2
expresión que permite calcular el número mínimo de muestras, n, a considerarse en un muestreo. Esto
requiere conocer 2. En muchas circunstancias, se puede tener una aproximación razonable a 2 de
anteriores pruebas o datos.
La expresión anterior denota que el tamaño de muestra, n, se incrementa al incrementarse el
coeficiente de confianza (1 - ) y disminuye al incrementarse h. Algunas veces se requerirá bastante
precisión, por lo que n debe ser muy grande. Pero si no es posible recolectar grandes muestras, se deberá
reducir el coeficiente de confianza o incrementar el ancho del rango h.
n
h2
5.8. Muestreo mediante incrementos
El muestreo por incrementos es el término aplicado a la forma de muestreo, en el que un número de
incrementos, específicamente medidos, se sacan de la población y se compositan para formar la muestra
apropiada. El número real de incrementos requeridos y el tamaño de cada incremento, son funciones de los
patrones se segregación y dispersión de los valores de la población. Cuando el muestreo mediante
incrementos se efectúa correctamente, los resultados deben ser representados por una curva de
distribución normal, donde la frecuencia se plotea contra el grado. Entonces es posible aplicar la teoría de
la probabilidad a los resultados iniciales de muestreo y predecir el número de incrementos que sería
requerido para dar un error específico probable de estimación a cualquier nivel de confianza deseado.
Ya que :
59
Z
x
S
n
Z S x n
sea e x error de estimacion numero de unidades de diferencia
con respecto al valor promedio
2
Z S
n numero de muestras
e
Ejemplo de aplicación
Doce muestras de 5 libras son tomadas de un lote de mineral que contiene cinc, los cuales ensayaron
lo siguiente en % se Zn:
7.04; 8.10; 8.85; 6.25; 7.69; 8.76; 8.35; 7.57; 7.96; 8.30; 8.50 y 7.48.
¿Cuántos incrementos deben ser compositados con el objeto de que la muestra compósito ensaye dentro
del 2 % del ensaye verdadero a un nivel de confianza del 95 %?
Solución:
Valor promedio, x 7.99
Varianza, S 2
0.718
Desviacion estandar, S 0.847
2
Error permisible de estimacion e * 7.99 01598
.
100
Z 196
. para 95% de nivel de confianza
2
196
. * 0.847
n = 108
01598
.
Se debe compositar 108 muestras de mineral para que el resultado final se encuentre en un rango 2%
alrededor del verdadero promedio.
60
CAPITULO VI
ANALISIS DE REGRESIÓN
6.1. Introducción
El objetivo de muchas investigaciones científicas es el comprender y explicar las relaciones entre
variables. Frecuentemente, se requiere conocer como y en que medida una variable de respuesta se
relaciona con un grupo de variables. El análisis de regresión es un técnica estadística para el modelamiento
y la investigación de la relación entre dos o más variables. Por ejemplo, en un proceso químico, supóngase
que el rendimiento del proceso esta relacionado con la temperatura de operación. El análisis de regresión
puede usarse para construir un modelo que permita predecir el rendimiento para una temperatura dada. El
modelo que se obtenga también puede usarse para la optimización del proceso, tal como hallar la
temperatura que maximiza el rendimiento, o para fines de control.
Como ilustración considérese los datos de rendimiento en carretera en kilómetros por galón de
gasolina (KPG) para una muestra de 10 automóviles, según se observa en la Tabla 6.1
La Figura 6.1 presenta el diagrama de dispersión de los datos contenidos en la Tabla 6.1. El diagrama
es solo una gráfica en la que cada par (x, y) está representado por un punto en el sistema de coordenadas
X,Y. El análisis de este diagrama indica que, si bien una curva no pasa exactamente por todos los puntos,
existe una evidencia fuerte de que los puntos están dispersos de manera aleatoria alrededor de una línea
recta.
55
50
Rendimiento, KPG
45
40
35
30
25
20
0.8 1.0 1.2 1.4 1.6 1.8
Peso de carro, Kg
El consumo de combustible mantiene cierta relación con el esfuerzo (fuerza por distancia) requerido
para desplazar el vehículo. Ya que la fuerza es proporcional al peso, es de esperarse que el consumo de
61
combustible también sea proporcional al peso. Por consiguiente, es razonable suponer que la media de la
variable aleatoria Y esta relacionada con X por la siguiente relación lineal:
E (Y ) o 1 X
donde la pendiente, o , y la ordenada al origen, i ,de la recta reciben el nombre de coeficientes de
regresión. Si bien la media de Y es una función lineal de x, el valor real observado de Y no cae de manera
exacta sobre la recta. La manera apropiada para generalizar este hecho con un modelo probabilístico
lineal es suponer que el valor esperado de Y es una función lineal de x, pero que para un valor fijo de x el
valor real de Y esta determinado por el valor medio de la función (el modelo lineal) más un término que
representa un error aleatorio, así:
Y o 1X
donde es el error aleatorio. Este modelo recibe el nombre de modelo de regresión lineal, ya que sólo tiene
una variable independiente o regresor (X).
Naturalmente, una relación precisa entre peso y consumo de combustible debe tener en consideración
otros factores tales como eficiencia de uso de combustible, diseño de motor, forma del chasis, etc., factores
que al no ser considerados, contribuyen a hacer más dispersos los datos. A pesar de ello supóngase que el
modelo de regresión verdadero para el caso del rendimiento de los automóviles se ajusta a la línea recta
mostrada en la Figura 6.2. El modelo de regresión verdadero: E (Y ) o 1 X es una recta de
valores promedio; esto es, cualquier punto de la recta corresponde al valor esperado de Y para su
correspondiente X. La pendiente 1 puede interpretarse como el cambio de la media de Y por unidad de
cambio de X. Además, la variabilidad de Y en un valor particular de X está determinada por la varianza del
error. Esto implica que existe una distribución de valores de Y para cada X, y que la varianza de esta
distribución es la misma para cada X. Nótese que se ha utilizado una distribución normal para describir la
variación aleatoria de . La variación de mide que tan dispersos se encuentran los valores medidos con
respecto a los calculados, de modo que, según el valor de de determina el grado de dispersión de las
2
observaciones. Por lo tanto, cuando tiene un valor pequeño, los valores observados de Y caen cerca de
2
Recta Verdadera de
Y Regresión
Y = X
x2
x1
x1 x2 X
la cual estima la dispersión de los datos alrededor de la línea de regresión. Normalmente, estos parámetros
son desconocidos y deben ser calculados de los datos de muestra. Las estimaciones de 1 y 2 deben dar
como resultado una línea que, en algún sentido, se „ajuste mejor‟ a los datos. El científico alemán Karl
Gauss (1777-1855) propuso estimar esos parámetros de modo que se minimice la suma de los cuadrados
62
de las desviaciones en los valores de Y. Este criterio para estimar los coeficientes de regresión se conoce
como método de los mínimos cuadrados.
^ ^
El método de mínimos cuadrados permite calcular los estimadores o y 1 de 0 y 1 mediante las
siguientes expresiones:
n n
yi xi
n
i 1 i 1
y
i 1
i xi
n
1 2
n
xi
n
i 1
x
i 1
2
i
n
0 y 1 x
donde
1 n 1 n
y y
n i 1 i
x
n
x
i 1
i
Una expresion equivalente para 1 esta dada por:
x x y i y x x y
n
i i i
i 1
1
x x
n
x x
2 2
i i
i 1
Y X
Observese que cada par de observaciones satisface la relacion:
Yi X i ei i 1, 2,..., n
donde ei yi y recibe el nombre de residuo.
El residuo describe el error en el ajuste del modelo en la i-ésima observación yi . Más adelante se utilizarán
los residuos para proporcionar información sobre la adecuación del modelo ajustado.
Ejemplo
Para los datos de la Tabla 6.1 de rendimiento de combustible de vehículos, tenemos:
63
10 10 10
xi 12,894
i 1
xi2 17.469 *10 6
i 1
y
i 1
i 396.9
10 10
y
i 1
i
2
16,822.55 x
i 1
i y i 482,527.4
396.9 * 12,894
482,527.4
10
0.03465
(12 ,894) 2
17.469 * 10
6
10
39.69 34.66 * 1289
. 84.366
Y 84.366 0.03465 X
55
50
Rendimiento, KPG
45
40
35
30
25
20
800 1000 1200 1400 1600 1800
Peso de carro, Kg
La pendiente estimada por 1 = -0.035 KPG/Kg. significa que el aumento de 1 Kg. en el peso del
vehículo este avanza 0.035 Km. (35 m.) menos por cada galón consumido; ó también, que una persona
dentro del vehículo que pese 70 Kg. ocasionará una reducción en el rendimiento del vehículo de 2.45 Km.
Esto último dicho de otra forma implica que, para un vehículo que rinde 40 KPG, el transporte de una
persona que pesa 70 Kg. implicará un consumo de 2.45/40 = 0.06 galones por cada 40 Km. de recorrido.
Nótese que los datos incluyen valores de peso entre 862 y 1,724 Kg. por lo que para valores fuera de
este rango, la eficiencia de vehículo puede ser diferente. La intersección 0 = 84.37 no se le puede asociar
ningún significado, pues implicaría el rendimiento de un vehículo de peso 0 Kg.
64
Y o 1 X
El cálculo de ésta expresión para los niveles x1, …, xn proporciona los valores ajustados:
Yi o 1 X i para i = 1, 2, …,n
Las respectivas diferencias entre las observaciones Y1, Y2,…,Yn y los valores ajustados Y , Y ,..., Yn son
denominados residuales, y están dados por:
ei Yi Y
Yi o 1 X i
i 1, 2,..., n.
La estimación de residuos para el ejemplo de consumo de combustible por automóviles se muestra en el
cuadro 6.1, tal como se obtuvo de un programa estadístico de computadora.
Obsérvese que la suma de residuales es cero, lo cual es general para toda evaluación de residuos, es
decir, para un análisis de regresión:
e 0
i 1
i
son fijos, Y es una variable aleatoria de promedio = 0 + 1X y varianza . Por consiguiente, los valores
2
65
n n 2
Y Y
SS E e
i 1
2
i
i 1
i
por lo tanto:
SS E
2
n2
2
n
Yi
n
2 n
i 1
_
Yi Y Yi
2
SS TO
i 1 i 1 n
2
n
i 1
Y i Y SSR
SS E e Yi Y
2
i
i 1 i 1
que se denomina suma de cuadrados debida al error, SSE , (error sum squares). De todo esto se puede
demostrar que:
SSTo = SS R + SSE
2
Todos estos conceptos conducen a la definición del Coeficiente de Determinación, R que es una
medida estadística de el ajuste de los valores medidos a la ecuación de regresión. Se representa por:
2
n
n i
Y
X Y X i 1
n
i 1 i i
i 1 n
i
SS R SS E
R2 1
SS TO SS TO n
2
n
2
n i
X i
Y
X 2 i 1 Y 2 i 1
n
i 1
i
n i 1
i
n
Para ilustrar el significado de esas expresiones, supóngase que 1 0 lo cual indica que no existe
relación entre X y Y; es decir Y = o; ó Y1 = Y2 = … = Yn. Por lo tanto: Y Y y SSR = 0 y SSTO = SSE y R
2
=0. En una segunda situación, supóngase que todos los puntos de la ecuación ajus tada pasan por los punto
medidos; o sea Yi Yi entonces SSE = 0 y SSTO = SSR , y R =1 lo cual indica que existe un excelente ajuste
2
0R 1
2
2
Esto explica que mientras el valor de R sea más cercano a 1 mejor será el ajuste predicho por la ecuación
de regresión.
2
En el ejemplo de el rendimiento de vehículos, se calcula fácilmente R = 0.94706, lo cual indica que
existe un buen ajuste predicho por la ecuación de regresión.
La salida que proporciona un programa de computadora se muestra en Cuadro 6.2:
n
S xx xi x
2
i 1
se(1 ) error estandar estimado de la pendiente
S xx
To tiene una distribución t con n-2 grados de libertad. Puede rechazarse Ho si:
TO t ( / 2, n 2)
De modo similar para o se pueden probar las hipótesis:
Ho : 0 = 00
H1 : 0 00
67
donde se ha considerado una hipótesis alternativa a dos colas (bilateral).Para evaluación de estas hipótesis
se calcula el estadístico de prueba siguiente:
0 00 0 00
T0
1 x2
se(0 )
2
n S xx
1 x
2
donde: 2 se(0 ) error estandar de la ordenada al origen
n S xx
To tiene una distribución t con n-2 grados de libertad. Puede rechazarse Ho si:
TO t ( / 2, n 2)
Un caso especial muy importante de las hipótesis anteriores es:
Ho : 1 = 0
H1 : 1 0
las cuales están relacionadas con la significancia de la regresión. Aquí, si se rechaza H1 y acepta H0 es
equivalente a concluir que no hay ninguna relación lineal entre X e Y.
Ejemplo: Luego de una evaluación y cálculo de un grupo de 20 datos se obtuvo el siguiente modelo lineal;
Y = 74.20 + 14.97 X
Se calculo Sxx = 0.68 y = 1.17. De esto:
2
1 1 14.97
T0
11.41
se(1 ) 117
. / 0.68
S xx
de Tablas se obtiene t(0.05, 18) = 2.88. Con estos resultados se decide rechazar Ho. El valor p de esta
-8.
prueba es 1.13 x 10
6.2.3.2. Análisis de la varianza y prueba F
Para probar la significancia de una regresión se utiliza el método de análisis de la varianza, ANAVA.
Como base para la prueba, el procedimiento particiona la variabilidad total en componentes más
manejables. La identidad del análisis de la varianza es el siguiente:
y yi
2
i i
i 1 i 1 i 1
Los dos componentes del lado derecho de esta ecuación miden respectivamente: a) la cantidad de
variabilidad en yi tomada en cuenta por la recta de regresión; y, b) la variación residual que queda sin
explicar por la recta.
Lo usual es utilizar las siguientes definiciones:
y
n
2
i y S yy ( Suma Total de Cuadrados Corregida ). Tambien simbolizado por SS TO
i 1
n 2
y y
SS R ( Suma de Cuadrados de la Re gresion)
i 1
i
n 2
y y i
i SS E ( Suma de Cuadrados de los Errores
i 1
De modo que la última ecuación puede escribirse:
Syy = SSR + SSE
La suma total de cuadrados Syy tiene (n-1) grados de libertad, y SSR y SSE tiene (1) y (n-2) grados de
libertad respectivamente..
Es posible demostrar que SSE / y SSR / son variables aleatorias independientes con distribución
2 2
Chi cuadrado con (n-2) grados de libertad. Para el contraste de las hipótesis:
Ho : 1 = 0
H1 : 1 0
68
se utiliza el estadístico F expresado de la siguiente forma:
SS / 2 / 1 SS R / 1 MS R
F
R
SS E / / ( n 2)
2
SS E / (n 2) MS E
observese que MS E 2
Este estadístico tiene distribución F( ; 1, n-2) con lo que H0 debe rechazarse si F0 > F( ; 1, n-2).
Las cantidades MSR y MSE reciben el nombre de medias de cuadrados. En general, una media de
cuadrados siempre se calcula dividiendo una suma de cuadrados entre su número de grados de libertad. Lo
usual es acomodar el procedimiento de prueba en una Tabla de Análisis de la Varianza, según se observa
en la Tabla 6.2.
Los grandes valores de F indican que 1 es diferente de cero. Esto implica de que si la relación F
excede el 100 punto de porcentaje de la distribución F(1, n-2), o de otra forma, si F > F ( ; 1, n-2) se
rechaza Ho y acepta H1 a un nivel de significación , lo que significa que 1 es diferente de cero. El valor p
es un valor de área o probabilidad asociado al valor de F0 . Si el valor p es menor que el nivel de
significación fijado, , se acepta H1.
Si los supuestos de regresión satisfacen el modelo, no debe observarse ningún „patrón‟ en esos
gráficos. Los residuos deben aparecer variando aleatoriamente en un área horizontal 2 alrededor de la
línea de cero. Por ejemplo, los gráficos de la Figura 6.4 muestran patrones que no satisfacen el requisito de
constancia de la varianza. En el primero de ellos por ejemplo, se observan desviaciones negativas en los
valores extremos y desviaciones positivas en los valores medios; en el segundo gráfico, las desviaciones se
e]incrementan para valores altos. De ellos se deduce que el modelo obtenido en cada caso no se ajusta
plenamente a los datos obtenidos.
69
e e
0
0
Y Y
Figura 6.4: Gráficos de residuos que muestran determinados patrones.
Con los datos de la Tabla 6.1 y con la aplicación de un programa estadístico de computadora se
obtienen los gráficos de las Figuras 6.5, 6.6 y 6.7. La Figura 6.5 repite el análisis de regresi ón con la línea
ajustada, (linea central) los valores reales y las línea alrededor de esta representando el intervalo de
confianza al 95% para el modelo de ajuste.
55
50
45
RENDIMIE
40
35
30
25
Regression
20
800 1000 1200 1400 1600 1800 95% conf id.
PESO_KG
70
Valores Ajustado vs. Residuos
Dep endent variable: RENDIM IENTO
4
0
Residuos
-1
-2
-3
-4
-5 Regression
22 28 34 40 46 52 58 95% conf id.
Valores Ajustados
1
Raw residuals
-1
-2
-3
-4
Regression
-5
800 1000 1200 1400 1600 1800 95% confid.
PESO_KG
71
2
6.2.5.2.Coeficiente de determinación (R )
Como se vio anteriormente, la cantidad:
SS R SS E
R2 1
SS TO SS TO
recibe el nombre de coeficiente de determinación y se utiliza con mucha frecuencia para juzgar la
2
adecuación de un modelo de regresión. A menudo se hace frecuencia de manera vaga a R como la
cantidad de variabilidad en los datos que es explicada o tomada en cuenta por el modelo de regresión.
2
Para el ejemplo de rendimiento de combustible de vehículos, se determinó el valor de R = 0.9471; lo que
significa, que el modelo determinado toma en cuenta el 94.71% de la variabilidad presente en los datos.
2 2
El estadístico R debe emplearse con precaución, ya que siempre es posible hacer R igual a uno
mediante la adición al modelo de un número suficiente de términos. Por ejemplo, puede obtenerse un ajuste
2
“perfecto” a n puntos con un polinomio de grado (n-1) . Además R siempre aumenta si se añade una
variable al modelo, lo que no implica necesariamente que el nuevo modelo sea mejor que el anterior.
Amenos que la suma de los cuadrados de los errores del nuevo modelo se vea disminuida por una cantidad
igual que al error cuadrático medio original, el nuevo modelo tendrá un error cuadrático medio mayor que el
anterior debido a la pérdida de un grado de libertad en el error; por lo tanto, en realidad el nuevo modelo es
peor que el anterior.
2
Se debe tener en cuenta que R no mide cuan apropiado resulta ser el modelo, ya que esto puede
inflarse de manera artificial con la adición al modelo de términos polinomiales en X de grado superior.
2 2
Incluso, R puede ser grande si X y Y están relacionadas de manera NO lineal. Finalmente, a pesar de R
sea grande, esto no necesariamente implica que el modelo de regresión proporcionará predicciones
precisas de observaciones futuras.
Y o e 1 x
Esta función es intrínsecamente lineal, puesto que puede transformarse en una línea recta mediante una
transformación logarítmica:
ln Y ln o i X ln
Esta transformación requiere que los términos de error transformados ln sean normales, con media cero y
varianza y que estén distribuidos de manera independiente.
2
1
Y o 1
X
Mediante el empleo de la transformación recíproca Z = 1/X, el modelo queda linealizado como:
Y o 1 Z
Si la varianza de Y se incrementa proporcionalmente al nivel de Y, se puede tratar transformaciones
como : Y , 1 , log Y , etc u otras potencias de Y . Los gráficos de estas transformaciones versus los valores
Y
de X indicará que transformación en particular estabiliza mejor la varianza.
72
6.3. Modelo de regresión lineal múltiple
Muchas aplicaciones del análisis de regresión involucran situaciones donde se tiene más de una
variable de regresión. Un modelo de regresión que contiene más de un regresor recibe el nombre de
modelo de regresión múltiple.
Como ejemplo, supóngase que la vida eficaz de una herramienta de corte depende de la velocidad de
corte y el ángulo de la herramienta. El rendimiento de un proceso químico no solo puede estar afectado por
la concentración de un elemento, sino por la concentración de varias sustancias, temperatura, etc . Un
modelo de regresión múltiple que puede describir esta relación es el siguiente:
Y o 1 X 1 2 X 2
X2
X1
Figura 6.8: Representación gráfica de un modelo se regresión lineal múltiple con dos regresores.
Y = o + 1 X1 + 2 X2 +…+ k Xk +
recibe el nombre de modelo de regresión lineal múltiple con k variables de regresión. Este modelo describe
un hiperplano en el espacio de dimensión k formado por las variables de regresión. Los modelos que tienen
una estructura más compleja que la dada por esta ecuación se pueden analizar con frecuencia por técnicas
de regresión lineal múltiple.
73
n n n n
n o 1 X i1 2 X i 2 ... k X ik Y i
i 1 i 1 i 1 i 1
n n n n n
o X i1 1 X i21 2 X i1 X i 2 ... k X i1 X ik X Y
i1 i
i 1 i 1 i 1 i 1 i 1
.
.
.
n n n n n
o X ik 1 X ik X i1 2 X ik X i 2 ... k X 2
ik X Y
ik i
i 1 i 1 i 1 i 1 i 1
Estas son llamadas la ecuaciones normales. La solución de estas ecuaciones es relativamente sencilla
aunque algo laborioso el cálculo manual dependiendo de la cantidad de regresores a considerar. En vista de
que los programas estadísticos de computadora presentan la opción de regresión múltiple, la obtención del
modelo de regresión se torna muy practico con el uso de un programa de computadora.
b) Análisis residual
Los residuos del modelo de regresión múltiple , definidos como ei Yi Y i desempeñan un papel
importante al juzgar la adecuación del modelo, al igual que lo tienen con la regresión lineal simple. Para tal
propósito son muy útiles las gráficas de los residuos. Una gráfica de probabilidad normal de los residuos es
un elemento apropiado para juzgar sobre la valides del modelo; desviaciones de los residuos con respecto a
la normalidad son indicio de que el modelo no es el más adecuado.
Y = o + 1 X1 + 2 X2 +…+ k Xk +
es un modelo general que puede emplearse para ajustar cualquier relación li neal en los parámetros
desconocidos . Esto incluye la clase importante de modelos de regresión polinomiales. Por ejemplo, el
polinomio de segundo grado en una variable:
Y = o + 1 X1 + 11 X +
2
Y 0 1 X 1 2 X 2 11 X 12 22 X 22 12 X 1 X 2
74
son modelos de regresión no lineales.
Los modelos de regresión polinomiales se utilizan mucho cuando la respuesta es curvilineal y el posible aplicar
principios generales de la regresión múltiple.
4. Ejemplos de aplicación
Con los siguientes ejemplos se desarrollaran aplicaciones prácticas de lo los conceptos de regresión
lineal
4.1. Evaluación en el cambio de rendimiento de proceso
En uno de los pasos para eliminación de agua de concentrados finos en una Planta Concentradora se
usa un proceso de filtración en batch usando una serie de filtros de placa-y-lona. Un día, y sin aparente
razón, la capacidad del circuito de filtración se redujo en un 20% aproximadamente y ha permanecido por
varios días en tal situación. El Superintendente de Planta quiere saber por qué y si será necesario comprar
filtros adicionales para recuperar los anteriores niveles.
El tiempo requerido para colectar un volumen V de filtrado de una pulpa con una concentración de
sólidos de concentración C (volumen de sólido por unidad de volumen de filtrado) a una presión constante
P se representa por el siguiente modelo semiteórico:
V 2 rC
t (4.1)
2 A 2 P
r = ro + (P)
n
(4.2)
Los valores previamente determinados de las constantes para el concentrado normal de la planta son
6
ro = 3.1x10 (ft)
-2
= 1.1 x 105 (psi-.9 ft-2) n = 0.90
Un análisis de los registros de operación de planta determina que no hubo cambios significativos en las
condiciones de operación en las últimas semanas a excepción del tamaño del concentrado, que en la
actualidad es algo más fino de lo que era antes al problema surgido. Al revisarse la literatura técnica se
encuentra que el parámetro ro de la ecuación (4.2) es sensible a la distribución de tamaños; por lo tanto, se
decide reevaluar la relación para un material más fino.
Se efectúan unas pruebas experimentales cuyos resultados se anotan en la siguiente Tabla:
DATOS EXPERIMENTALES
-2
Pi (psi) r i (ft)
6
40 9.34x10
6
40 9.92x10
6
70 13.13x10
6
70 12.23x10
6
60 12.31x10
6
60 11.76x10
6
30 8.85x10
6
30 8.71x10
6
50 11.57x10
6
50 11.16x10
6
80 13.21x10
6
80 13.72x10
El procedimiento a seguir para analizar y proponer una solución al problema surgido, puede efectuarse
según el siguiente esquema:
75
A) Revisar la validez de la ecuación 4.2:
1.Inténtese ajustar los datos experimentales con los siguientes modelos:
a ) r ro X
b) r ro e X
c) r ro X
considerando X = P , intente la linearización de las ecuaciones b y c.
.9
i 1 2 3 4 5 6 7 8 9 10 11 12
Xi 200 400 300 400 200 300 300 400 200 400 200 300
Yi 28 75 37 53 22 58 43 96 46 52 30 69
a) Asumiendo que el modelo de regresión es apropiado, obténgase una función de regresión y un gráfico
de residuos vs. X. Qué se observa del gráfico de residuos?
2
b) Calcular la varianza de muestra S de la Y observaciones para cada una de las tres velocidades de
máquina: X = 200, 300 y 400. Que se sugiere de los valores des la varianza de las tres muestras con
respecto a la igualdad de esos valores?
c) Calcular: Y , Y y Y para cada uno de los niveles de X. Sugiera una transformación apropiada para
2
S S S
estabilizar la varianza.
d) Haga la transformación sugerida en la parte c y obtenga la línea de regresión con los datos
transformados. Haga el gráfico de residuos vs. X ¿Qué concluye de este gráfico?
2. Una compañía minera esta tratando de desarrollar un modelo para hidrociclones que utilizan en su
planta de molienda. Se decide utilizar el modelo empírico de Rao y Lynch, el cual consiste de cuatro
ecuaciones. Para una de ellas, la ecuación de agua en el overflow , se han desarrollado dos modelos:
Modelo expandido:
2 2
WOF = K1 + B1(WF) + B2(SPIG) + B3(WF*SPIG) + B4(WF ) + B5(SPIG)
Modelo reducido:
WOF = K2 + C1(WF) + c2(SPIG)
donde:
WOF = Flujo másico de agua en el overflow (tph)
WF = Flujo másico de agua en el pulpa de alimentación (tph)
SPIG = diámetro del apex (pulgadas)
a) Ajustar los dos modelos a los datos experimentales obtenidos.
b) Simplificar el modelo expandido, en lo posible, eliminando una variable a la vez, hasta encontrar la
forma más simple.
c) Compare el modelo reducido obtenido con el modelo reducido de Rao y Lynch.
76
DATOS EXPERIMENTALES
77
EJERCICIOS GRUPO 6
1. Se prueban dos fórmulas diferentes de un combustible oxigenado para motor en cuanto al octanaje. La
varianza para el octanaje de la formula 1 es de 1.5, mientras que para la formula 2 es de 1.2 ¿Qué tamaño
de muestra se requiere para cada población si se desea tener una confianza de 95% de que el error al
estimar la diferencia entre las medias de octanaje sea menor que uno?
2. Un ingeniero analiza la resistencia a la compresión del concreto. La resistencia esta distribuida normalmente
con una varianza de 1000 (psi)2 . Si se desea estimar la resistencia a la compresión con un error menor de
15 psi para un nivel de confianza de 99%. ¿qué tamaño de muestra debe emplearse para este fin?
3. Se desea probar una hipótesis de que el punto de fusión de una mezcla es de 1200 oC. Si el punto de
fusión difiere mas de 20 oC se tendrá que cambiar su composición. Sea = 0.01 y = 15 oC, ¿cuántas
determinaciones deben hacerse?
4. Se usa un reactivo químico para obtener un precipitado de una sustancia en una solución dada. Los datos
son los siguientes:
Reactivo 7.2 4.8 5.2 4.9 5.4 6.4 6.8 8.0 6.0 6.7 7.0 8.0 7.3 4.6 4.2
Precipitado 8.4 5.4 6.3 6.8 8.0 11.1 12.3 13.3 8.4 8.5 9.4 12.7 9.3 7.0 5.1
5. Los datos de concentración de licor verde Na2S y la producción de papel de una máquina son:
Nro de 1 2 3 4 5 6 7 8 9 10 11 12 13
observación
Na2S, g/l 40 42 49 46 44 48 46 43 53 52 54 57 58
Producción, 825 830 890 895 890 910 915 960 990 101 101 103 105
ton/día 0 2 0 0
a. Ajuste el modelo de regresión lineal simple con la concentración de licor verde como Y y la producción
como X. Dibuje el diagrama de dispersión de los datos y del modelo ajustado de dichos datos.
b. Encuentre el valor ajustado de Y que corresponde a X= 910 así como el residuo correspondiente.
c. Encuentre la concentración promedio de licor verde cuando la tasa de producción es de 950 toneladas
por día.
d. Pruebe la significancia de la regresión con = 0.05. encuentre el valor p de esta prueba.
e. Pruebe Ho : o = 0 contra Ho : 1 0 con = 0.05.¿Cuál es el valor p de esta prueba?
f. Haga una gráfica de los residuos de y calculado contra x. Comente las gráficas.
6. En una planta se destila aire líquido para producir oxígeno, nitrógeno y argón. Se cree que el porcentaje de
impureza del oxígeno está linealmente relacionado con la cantidad de impurezas que hay en el aire, medida
mediante el “conteo de contaminación” en partes por millón (ppm). Los datos son los siguientes:
Pureza, % 93. 92. 92. 91. 94. 94. 93. 93. 93. 92. 92. 91. 90. 91. 91.
3 0 4 7 0 6 6 1 2 9 2 3 1 6 9
Contam., ppm 1.1 1.4 1.3 1.5 1.0 0.7 1.2 0.9 0.8 1.2 1.4 1.8 2.0 1.7 1.6
0 5 6 9 8 5 0 9 3 2 7 1 3 5 8
78
7. El rendimiento de una reacción química depende de la concentración del reactivo y de la temperatura de
operación. Los datos obtenidos son los siguientes:
Rendimiento 81 89 83 91 79 87 84 90
Concentrac. 1.00 1.00 2.00 2.00 1.00 1.00 2.00 2.00
Temperatur 150 180 150 180 150 180 150 180
a
12. Ajuste el modelo de regresión polinomial de segundo orden utilizando los siguientes datos:
Y 0 1 X 1 2 X 2 11 X 12 22 X 22 12 X 1 X 2
13. Se piensa que la potencia consumida al mes por una planta química está relacionada con la temperatura
ambiente promedio (X1), el número de días al mes , (X2), la pureza producto del producto (X3) y las
toneladas del producto producidas (X4) . Los datos correspondientes al año pasado son:
Y 240 236 290 274 301 316 300 296 267 276 288 261
X1 25 31 45 60 65 72 80 84 75 60 50 38
X2 24 21 24 25 25 26 25 25 24 25 25 23
X3 91 90 88 87 91 94 87 86 88 91 90 89
X4 100 95 110 88 94 99 97 96 110 105 100 98
14. Considere los datos siguientes, los cuales son resultado de un experimento para determinar el efecto de X =
tiempo de prueba en horas a una temperatura particular sobre Y = cambio en la viscosidad del aceite:
Y -1.42 -1.39 -1.55 -1.89 -2.43 -3.15 -4.05 -5.15 -6.43 -7.89
X 0.25 0.5 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50
79
15. A continuación se presentan los datos sobre solubilidad de la fracción molar de un soluto Y, a temperatura
constante y los parámetros de Hansen de solubilidad parcial por dispersión, dipolo y enlace de hidrógeno
respectivamente:
# 1 2 3 4 5 6 7 8 9
Obs.
Y 0.2220 0.39500 0.42200 0.43700 0.42800 0.46700 0.44400 0.37800 0.49400
0
X1 7.3 8.7 8.8 8.1 8.0 8.7 8.3 7.6 9.0
X2 0.0 0.0 0.7 4.0 0.5 1.5 2.1 5.1 0.0
X3 0.0 0.3 1.0 0.2 1.0 2.8 1.0 3.4 0.3
# 10 11 12 13 14 15 16 17 18
Obs.
Y 0.4560 0.45200 0.11200 0.43200 0.10100 0.23200 0.30600 0.09230 0.11600
0
X1 8.4 8.3 7.7 8.8 7.3 8.5 8.5 7.4 7.8
X2 3.7 3.6 2.8 4.2 2.5 2.0 2.5 2.8 2.8
X3 4.1 2.0 7.1 2.0 6.8 6.6 5.0 7.8 7.7
# 19 20 21 22 23 24 25 26
Obs.
Y 0.0764 0.43900 0.09440 0.11700 0.07260 0.04120 0.25100 0.00002
0
X1 7.7 9.3 7.8 7.1 7.7 7.4 7.3 7.6
X2 3.0 1.7 3.3 3.9 4.3 6.0 2.0 7.8
X3 8.0 4.2 8.5 6.6 8.5 9.9 5.2 20.7
a. Ajuste el modelo:
Y 0 1 X 1 2 X 2 3 X 3 12 X 1 X 2 13 X 1 X 3 23 X 2 X 3 11 X 12 22 X 22 33 X 2
b. Pruebe la significancia de la regresión con = 0.05
c. Haga una gráfica de los residuos y comente sobre la adecuación del modelo.
80
CAPITULO VII
DISEÑO DE EXPERIMENTOS
7.1. Generalidades
En 1964 las compañías americanas generaban alrededor de 6 mil millones de dólares en superávit
comercial de exportación, sin darse cuenta que estaban bajo el ataque de compañías extranjeras. Ya por el
año de 1984 en los Estados Unidos se producía un déficit de la balanza comercial de 123 mil millones de
dólares. En este período de 20 años la productividad en los Estados Unidos se incremento tan solo en un
35 %, comparado con un 60 % de algunos países europeos, y con un sorprendente 120 % en el Japón. El
mismo país que tenía la reputación de producir “chatarra” en los años 50 - 60, ahora amenazaba la
supervivencia de la industria americana al producir productos de alta calidad y bajos precios.
Como ocurrió aquello? Es bien conocido que mucho de este sorprendente cambio en la calidad de los
productos japoneses se debió a controles de calidad de los productos introducidos mediante el us o de el
diseño de experimentos y el control de calidad durante la producción mediante técnicas estadísticas.
Irónicamente, estas técnicas fueron desarrolladas mayormente en los Estados Unidos hace unos 60 años
atrás, pero las compañías americanas no se preocuparon en implementar estas técnicas. Esta
despreocupación era debida principalmente a la escasa competencia que existía después de la postguerra
lo que no hacia útil el preocuparse excesivamente por controles de calidad. Después de la Segunda Guerra
Mundial, los japoneses eran muy receptivos a las ideas de los estadísticos y como resultado, los japoneses
llegaron a ser expertos en calidad y pronto sus empresas prosperaron. Así, todos en una compañía, desde
los gerentes hasta los operarios de línea, fueron adiestrados en estas técnicas, no solo para controlar la
calidad de producción , sino para mejorar continuamente los procesos productivos.
...
Entradas Salida
PROCESO
...
Z1 Z2 Zp
Factores incontrolables
Figura 7.1: Modelo general de un proceso o sistema.
81
experimental también permite medir el nivel de interacción entre las variables de ingreso y fijar los mejores
valores de estas variables de modo que la respuesta proporcione las mejores condiciones .
Supóngase por ejemplo, que un ingeniero esta interesado en estudiar el efecto que tienen sobre una
aleación de aluminio dos procesos diferentes de endurecimiento: a) el templado en aceite y b) el templado
en agua salada. En este caso el objetivo del investigador es determinar cual de las dos soluciones produce
el máximo grado de dureza sobre la aleación mencionada. El ingeniero debe someter un cierto número de
probetas de la aleación a cada medio de templado, después medir la dureza de las muestras. La dureza
promedio de las probetas tratadas en cada solución servirá para determinar cuál de las dos soluciones es
la mejor.
Al diseñar el experimento en mención, viene a la mente algunas preguntas importantes;
a) Son estas soluciones los únicos medios de templado?
b) Existen otros factores que puedan afectar la dureza de las muestras? Tipo de probeta por ejemplo.
c) Cuántas probetas de debe considerar para el estudio?
d) Que diferencia en los niveles promedio de dureza entre las dos soluciones debe considerarse
importante?
En cualquier experimento, los resultados y conclusiones que pueden obtenerse dependen, en gran
parte, de la forma en que los datos fueron recopilados. Por ejemplo, supóngase que en las pruebas de
templado se usan probetas de un tipo para templado en aceite, y de otro tipo para templado en agua. Luego
al comparar los resultados, no será posible decir cuanta de la diferencia observada se debe a la diferencia
de los medios de templado y cuanta al tipo de probeta. De este modo, el método utilizado en la obtención
de los datos ha afectado las conclusiones que pueden deducirse del experimento.
P1 T1 0.030
P1 T2 0.015
P1 T2 0.015
P2 T2 0.010
82
A primera vista se concluye que la combinación P 2 - T2 proporciona el más bajo índice de defectos,
1%. Este tipo de experimentación se denomina “diseño uno a la vez”. Este método no es muy conveniente
cuando se investiga dos o más variables, ya que no considera la posible interacción que ocurre entre las
variables, teniendo además la probabilidad de conducirnos a un falso óptimo.
0.025
Proporcion de defectos
0.020
0.015 P1
0.010
P2
0.005
0.000
Temperatura
T1 T2
En la optimización de los procesos, la utilización de los diseños experimentales, junto con una
estrategia adecuada de optimización, es el mejor método para encontrar los valores óptimos de las
variables de la manera más rápida y eficiente posible.
- Da la mayor información por experimento, que la experimentación clásica. El investigador que hace uso de
esta técnica reduce el tiempo de experimentación y mejora su eficiencia, especialmente cuando son
muchas las variables de potencial importancia.
- Permite una colección y análisis organizado de la información obtenida, que conduce a conclusiones
confiables mediante un análisis estadístico.
- Gran confiabilidad de los resultados.
- Permite evaluar las interacciones entre las variables experimentales, y que conducen a predicciones más
confiables de las respuestas en áreas no directamente cubiertas por la experimentación.
- Mejora del rendimiento del proceso.
- Menor variabilidad y mayor apego a los requerimientos u objetivo.
- Menor tiempo de desarrollo.
- Menores costos globales.
83
El uso de diseño experimental en las tareas de desarrollo de nuevos procesos y diseño de ingeniería,
puede dar por resultado productos con mayor confiabilidad y mejor funcionamiento, menores costos, y
menor tiempo de diseño y desarrollo del producto.
La réplica se refiere a la repetición del experimento básico. Este concepto tiene dos propiedades
importantes. En primer lugar permite obtener una estimación del error experimental; tal estimación se
convierte en la unidad básica para determinar si las diferencias observadas en los datos son
estadísticamente significativas. En segundo lugar, el uso de réplicas permite al experimentador calcular una
_
estimación más precisa del efecto de un factor en el experimento, si se usa por ejemplo la media, y , como
una estimación de dicho efecto; esto porque la varianza, de un muestra de tamaño n, tendrá una varianza
igual a 2/n , lo que implica que la variabilidad de una respuesta experimental tiende a cero cuando n es
más grande.
La aleatorización es la piedra angular que fundamenta el uso de métodos estadísticos en el diseño de
experimentos. Se entiende por aleatorización el hecho de que tanto la asignación del material experimental
como el orden en que se realizan las pruebas individuales se determinan aleatoriamente. Los métodos
estadísticos requieren que las observaciones (o los errores) sean variables aleatorias independientes.
Además, al aleatorizar adecuadamente un experimento se ayuda a 'cancelar' los efectos de factores
extraños que pudieran estar presentes.
El análisis por bloques es una técnica que se usa para incrementar la precisión del experimento. Un
bloque es una porción del material experimental que sea más homogénea que el total del material. Al
realizar un análisis por bloques. se hacen las comparaciones entre las condiciones de interés del
experimento dentro de cada bloque.
84
C) Selección de la variable de respuesta
Al seleccionar la respuesta o variable dependiente, se debe estar seguro que la respuesta que se va a
medir realmente provea información útil acerca del proceso de estudio. Usualmente, el promedio o la
desviación estándar (ó ambos) de la característica medida, serán la variable de respuesta. La capacidad de
medición es también un factor importante, y si esta es deficiente, no podrá esperarse mas que la detección
de efectos relativamente grandes.
F) Análisis de datos
Se requiere de un análisis estadístico de los datos, los cuales por lo general no son complicados. Se
debe tener en cuenta que el análisis estadístico solo hace posible obtener el probable error de una
conclusión o asignarle un nivel de confiabilidad a los resultados. Las técnicas estadísticas, aunadas a un
buen conocimiento técnico del proceso y al sentido común, suelen llevar a conclusiones razonables.
H) Conclusiones y recomendaciones
Para esta etapa, es muy útil utilizar métodos gráficos. También es importante realizar corridas de
seguimiento y pruebas de confirmación para dar validez a las conclusiones del experimento.
Donde Y es la respuesta o variable de salida (variable dependiente) que es función de las variables de
entrada X1, X2,...,Xk. El más simple caso, con una sola variable de entrada, k = 1, proporciona un modelo
como el siguiente:
Y o 1 X1
El modelo permite predecir los valores de Y sobre un rango limitado de valores de X.
Para dos o más variables, la situación se complica por la posible existencia de interacciones entre
variables, lo que indica que las variables no actúan independientemente sobre la variable respuesta. el
modelo empírico para dos variables será:
Y 0 1 X 1 2 X 2 12 X 1 X 2
85
donde 12 es el denominado parámetro de interacción. Cuando 12 es cero, se obtiene un modelo
estrictamente de primer orden con dos líneas rectas paralelas entre si. Cuando 12 es diferente de cero, el
modelo es interactivo y las líneas no son paralelas y se interceptan entre si.
Los diseños experimentales que permiten estimar modelos de primer orden son:
- Diseños factoriales;
- Diseños factoriales fraccionados;
- Diseños de Placckett y Burman; etc.
La utilización de diseños de primer orden son de gran importancia en la etapa inicial de optimización,
donde al inicio de la investigación se tiene gran número de variables . El objetivo es estudiar el efecto de
cada una de esas variables en la respuesta del proceso, eliminando aquellas que resulten poco
significativas o con pendientes cercanas a cero.
Si consideramos el caso de una sola variable controlable, el modelo de segundo orden toma la forma:
Y 0 1 X1 11 X 2
Te
mp
era
tura
ión
rac
nc ent
Co
86
7.8. Modelos matemáticos
Un modelo matemático es un sistema de ecuaciones algebraicas o diferenciales que representan
cuantitativamente el proceso o algunos aspectos del proceso. Su formulación depende del conocimiento de
las leyes que gobiernan el proceso y de la habilidad de expresarlas matemáticamente.
Por ejemplo, se puede construir un modelo matemático que defina el tiempo de solidificación de un
lingote de acero, la velocidad de enfriamiento para evitar rajaduras de piezas de colada continua, un modelo
para optimizar la recuperación metálica de una planta concentradora, etc.,
Los modelos matemáticos se clasifican en: teóricos, semi-empiricos, empíricos.
87
Tratamiento 1
Tratamiento 2
Tratamiento 3
Supóngase por ejemplo que se quiere estudiar la tensión de ruptura de tres diferentes aleaciones. Las
mediciones deberán estar distribuidas normalmente y con varianza semejante. Se quiere averiguar si son
iguales o no los promedios 1, 2,... k de los k tratamientos. Si son iguales, se dice que no hay diferencia
debida a los diferentes niveles de este factor. Si se determina que son diferentes, se necesitará determinar
cuan diferentes son esos promedios entre si; así por ejemplo, pueden ser diferentes porque 1 es mayor
que 2 = 3, o tal vez porque los tres son diferentes entre si.
7.8.2 Ejemplo de aplicación
Un ingeniero desea comparar las propiedades de resistencia de tres tipos diferentes de vigas. La de
tipo A esta hecha de acero y las de tipo B y C son hechas de dos diferentes tipos de aleación más caras.
Los resultados de deflección por aplicación de una fuerza de 3000 lb se anota en la Tabla 7.3. Para realizar
los experimentos de medición, el ingeniero se aseguró que las vigas son muestras totalmente
representativas, y no simplemente una elección de las primeras vigas que se tuvieron a la mano. Para
asegurar la aleatoriedad de las mediciones, el ingeniero asignó un número al azar a cada una de las 20
vigas, y según ello realizó los experimentos.
y
ni
2
Tipo ni Observaciones yi ij y
j 1
Una visualización clara de los resultados se muestra en el siguiente diagrama de puntos, Figura 7.5:
Aleación C
Aleación B
Aleación A
75 80 85 90
Deflección (en 1/1000 pulg.)
Figura 7.5: Diagrama de punto para las observaciones en tres grupos. El promedio de grupo se señala por la
flecha.
88
El diagrama de puntos muestra dos aspectos muy importantes: a) La variabilidad de las observaciones
dentro del grupo, o variabilidad dentro del tratamiento; b) La variabilidad entre los grupos, o variabilidad
entre tratamientos.
Si la variabilidad entre tratamientos es más grande de lo que es de esperar, la posibilidad de que los
tratamientos sean iguales queda seriamente cuestionada. El diagrama de puntos anotado, permite visualizar
esta variabilidad entre grupos.
De modo análogo a la expresión de la varianza de muestra, se determina:
2
k ni
SS Error Yij Yi
i 1 j 1
que es denominada suma de cuadrados del error dentro del tratamiento o error de suma de cuadrados
(Error Sum Squares). Esta cantidad, dividida por el número de grados de libertad, N - k, se conoce como
promedio del cuadrado del error (Mean Square Error) ó promedio del cuadrado debido al error:
SS Error
MS Error
N k
Este es un promedio ponderado de la varianzas de muestra:
k
Si2 : MS Error wi Si2
i 1
donde wi = (ni - 1)/(N-k). Este es un estimador insesgado de la varianza 2 y mide la variabilidad interna.
En el ejemplo, la suma de cuadrados dentro del tratamiento:
SS Error = 48 + 40 + 14 = 102
y los grados de libertad están dados por: (8-1) + (6-1) + (6-1) = 17; por lo tanto el estimado insesgado de 2
es:
MSError = 102/17 = 6.0
Ahora, hay otro tipo de variabilidad que puede ser calculada; esto es, la variación entre los promedios
de tratamiento alrededor de el gran promedio. El gran promedio:
k ni
1
Y
N
Y
i 1 j 1
ij
es la suma de todas las observaciones dividida el número total de observaciones. Si a cada promedio Yi se
le da su tamaño de muestra ni como su peso al calcular la suma de cuadrados, tal suma de cuadrados:
2 2 2
SSTratamiento ni Y 1 Y n2 Y2 Y ... nk Yk Y
2
k
ni Yi Y
i 1
89
Definidos los dos tipos de variación: la suma de cuadrados dentro y entre tratamiento; la suma de
cuadrados alrededor del gran promedio, SSTO, es la suma de estas dos sumas de cuadrados:
Fuente SS g.l. MS F
2 SSTratamiento MSTratamiento
n Y Y
k
Tratamient i i
k-1 k 1 MS Error
o i 1
Y
k ni SS Error
2
Error Yi N-k
i 1 j 1
ij
N k
Y
k ni
2 N-1
Total ij Y
i 1 j 1
columna identifica las fuentes de variación, la segunda las sumas de los cuadrados, la tercera los grados de
libertad, la cuarta el promedio de los cuadrados y la última columna la proporción F que se analizara más
adelante en esta sección.
En el ejemplo se tiene:
Fuente SS g.l. MS F
Tratamient 184.8 2 92.4 15.4
o
Error 102.0 17 6.0
Total 286.8 19
Ho : 2 = ...n
H1 : Todos los tratamientos no son los mismos.
Si F F(; k - 1, N - k) se acepta H1
90
En este caso se dice que la razón F = MSTratamiento/MSError. es significativa y que hay diferencias
estadísticamente significativas entre los promedios de grupos. Por otro lado:
Si F F(; k - 1, N - k) se acepta Ho
q ; k ,
Y r
Ys
2
MS Error
1 1
nr ns
donde q(; k, ) es el 100(1-) por ciento de la distribución Estudiantizada (Tabla C8) que compara los
promedios k con = N - k grados de libertad del promedio cuadrado de error. Esto permite establecer
intervalos de confianza en comparaciones por pares. Si el intervalo que se defina para cada par de
comparación incluye el cero, se concluye que no hay diferencia significativa entre los dos tratamientos.
Estrictamente hablando, este procedimiento es válido solo para muestras de igual tamaño; sin embargo, es
una buena aproximación si los valores ni no son muy diferentes.
En el ejemplo de la comparaciones de la vigas, se puede establecer un total de 3(3-1)/2 = 3
comparaciones en pares, asociadas según:
B;
C;
C.
1 1
84 77 6.27 ; o 3.61 A B 10.39
8 6
1 1
84 79 6.27 . A C 8.39
; o 161
8 6
1 1
79 77 6.27 . C B 5.62
; o 162
6 6
91
Ejercicio de aplicación
La resistencia a la tracción de una fibra sintética es de interés de un fabricante. Se sospecha que la
tensión es afectada por el porcentaje de algodón en la fibra. Cinco niveles en porcentaje de algodón son
considerados y se efectúa 5 mediciones de cada nivel. Las 25 pruebas ejecutadas aleatoriamente se
reportan a continuación.
2
% de Algodón Resistencia a la tracción, lbs/pulg
15 7 7 15 11 9
20 12 17 12 18 18
25 14 18 18 19 19
30 19 25 22 19 23
35 7 10 11 15 11
92
CAPITULO VIII
En la sección anterior se investigó la diferencia entre k tratamientos (o niveles) de un solo factor, (ej.
resistencia de una viga). Ahora por ejemplo, un ingeniero está interesado en los efectos de la temperatura y
el tiempo del ciclo en la brillantez del teñido de telas producidas en una fábrica de tejidos. Podría estudiar el
proceso, a dos niveles de temperatura, (350 y 400 oF); y dos niveles de tiempo de ciclo (40 y 50). La
experimentación en este caso debe incluir 4 combinaciones de factores de nivel. Para este propósito, y en
los que intervienen dos o más factores, los diseños factoriales son los más eficientes.
Al inicio de un trabajo de optimización, cuando todavía no se tiene un buen conocimiento del
comportamiento del proceso a optimizar, generalmente la lista de factores o variables que pueden influir en
el proceso son muchas. El objetivo principal en una primera etapa de optimización es la de identificar
aquellas variables que tengan gran influencia en el proceso. Para es ta fase, los diseños factoriales son los
más recomendados.
N= 2k
donde:
k = número de variables;
N = número total de experimentos.
Con el siguiente ejemplo se ilustra adecuadamente el desarrollo de un diseño factorial.
93
Adicionalmente, por experiencias y conocimiento del proceso, se espera que ocurra una fuerte
interacción entre estas dos variables; esto es, que las variaciones ocurridas en una de las variables influyan
en la otra y estos efectos interactuados se reflejen en el espesor del níquel.
Tabla 8.1: Matriz de diseño con valores actuales y codificados para pruebas de niquelado.
Valores actuales Valores codificados
Prueba A B A B
# Temp. oC Tiempo, seg.
1 16 4 -1 -1
2 16 12 -1 +1
3 32 4 +1 -1
4 32 12 +1 +1
La sección de la Tabla con valores actuales sirve de guía para conducir los experimentos, y la sección con
los valores codificados para los propósitos de cálculos y evaluación de datos.
En general, los experimentos deben ejecutarse lo más aleatoriamente posible, sin seguir
necesariamente el orden en el que la Tabla de diseño dicta. En este caso particular, la temperatura es una
variable que no facilita la aleatorización, pues es difícil modificarla rápidamente a los valores en que se
necesita experimentar. En este caso, debe tomarse medidas para evitar inducir variabilidad diferente a cada
prueba.
Con los recursos que se dispone, se decide efectuar 5 pruebas con cada una de las 4 combinaciones,
midiendo el espesor de la capa de níquel como la variable respuesta. En lo posible, estas repeticiones se
efectúan aleatoriamente; es decir, no repitiendo la misma combinación 5 veces continuadas. Los resultados
obtenidos por la experimentación se resumen en la Tabla 8.2.
94
Promedi A Temp. B Tiempo
o oC Seg.
De esos cálculos se observa el efecto del factor temperatura equivalente a -0.8 micropulgadas. Esto
significa que el aumento la temperatura de 16 a 32 oC ocasiona una disminución en el espesor en 0.8
micropulgadas. Similarmente, el factor efecto tiempo es de +8.3; es decir, el aumento de tiempo de
residencia dentro del baño de 4 a 12 seg. ocasiona un aumento en el espesor en 8.3 micropulgadas.
Comparando efectos, el factor tiempo resulta ser aproximadamente 12 veces más importante que el factor
temperatura en el espesor de la capa de níquel.
A continuación se elabora gráficos con los valores promedios obtenidos, como se observa en las
Figuras 8.1. En estas se debe destacar el hecho de la interacción que existe entre los dos factores en
estudio. Esto se evidencia por el hecho que en ambos gráficos no existe paralelismo entre las rectas
trazadas.
125
T=32oC
Espesor, pulg.
t = 12 seg
120
115 T=16 oC
t = 4 seg.
110
105
16 32 4 12
Temp. oC Tiempo, seg
A fin de cuantificar los efectos de interacción, ya develados con los gráficos de la Figura 8.1, se elabora
una Tabla con las variables codificadas y adicionando una columna de interacción AB. Esta columna se
obtiene multiplicando los valores codificados correspondientes a los dos factores. Esto se observa en la
Tabla 8.3.
Se puede determinar matemáticamente el efecto de interacción entre los dos factores, utilizando la
columna AB y la respuesta obtenida para cada combinación:
Valores Interacción AB
(-) 116.8 106.7 Promedio de interacción para valores
11175
.
2 bajos
(+) . 124.3
1158 Promedio de interacción para valores
120.05
2 altos
120.05 - 111.75 = 8.3 Efecto
95
El alto valor del efecto para la interacción AB, indica la fuerte interacción que existe entre esas dos
factores.El siguiente paso es calcular los "medios efectos" para cada columna. Estos "medios efectos" serán
usados en la ecuación de predicción a definirse posteriormente.
A (Temp.) B (tiempo) AB
/2 -0.8/2 = -0.4 8.3/2 = 4.65 8.3/2 = 4.15
En las Figuras, 8.2 y 8.3, se resumen los datos obtenidos hasta el momento.
La variable B (tiempo) y la interacción AB muestran tener gran influencia en el proceso de niquelado,
en cambio, la variable A (temperatura) no tiene mucha significación en el proceso.
A continuación se debe evaluar cuales de los factores e interacciones son importantes. Para ello se
dispone de tres procedimientos:
a) Análisis gráfico;
b) Análisis de la Varianza, ANAVA;
c) Análisis de regresión.
125
B AB
Espesor, pulg.
120
A
115
110
105
16 32 4 12 -1 +1
Temp. oC Tiempo, seg Interacción
5
B
AB
4
Valor absoulto /2
1
A
0
A
Y Y A B B AB AB ...
2 2 2
donde:
Y = la respuesta de predicción o Y estimado
Y = promedio de los valores de respuesta.
96
A/2 = medio efecto para el factor A
B/2 = medio efecto para el factor B
AB/2 = medio efecto para el factor AB
Nótese que los valores actuales de las variables son reemplazados en la ecuación de predicción con los
valores codificados.
Se observa que la ecuación de predicción responde correctamente a combinaciones de valores ya
experimentados. Esto da seguridad para que el modelo pueda ser utilizado para predecir combinaciones no
probadas y/o predecir un valor objetivo.
Supóngase ahora que se fija como objetivo el tener una capa de níquel de 120 micropulgadas. Ya que
se dispone de 2 variables y se decide técnicamente que la temperatura debe fijarse a 32 oC, la ecuación
puede usarse según:
Ya que este valor de B es un valor codificado del tiempo, para obtener el valor real se procede según lo
siguiente:
0.54 seg
-1 0 +1
4 seg 8 seg 12 seg
El tiempo real se obtendrá de un simple cálculo de interpolación. Para este valor codificado de B =
0.508 se obtiene un tiempo de 9.04 seg. Por lo tanto, con 9.04 seg. y 32 oC, el niquelado deberá tener una
capa de 120 micropulgadas de espesor.
Se debe proceder ahora con las pruebas confirmativas para determinar la validez total del modelo
obtenido. Las pruebas de confirmación se llevarán a cabo con 32 oC de temperatura del baño y 10 seg. de
tiempo de inmersión de la pieza en el baño de níquel.
Con esos valores fijados de los factores, se realizan 5 pruebas de verificación y se obtienen los
siguientes resultados de micropulgadas de espesor de la capa de níquel:
120.5; 122.7; 117.4; 125.3; 117.0.
115 120 125
Espesor en micropulgadas
Ya que hay una distribución razonable alrededor de 120, se concluye que el modelo obtenido es válido.
97
8.3 Análisis de la varianza
El análisis gráfico, no-estadístico, se complementa con el estudio de análisis de la varianza, lo cual
aporta el criterio objetivo para completar la evaluación. Este análisis se desarrolla con un ejemplo: Se
realiza una investigación sobre el efecto de dos factores en la velocidad de reacción de un proceso, sean
estas la concentración de un reactivo (Z 1) y la cantidad de un catalizador, (Z 2). Los niveles de los factores
son los siguientes:
Con estos valores se ejecuta un diseño experimental con 2 2 = 4 experimentos y tres replicas en cada
prueba. La Tabla 8.4 señal el diseño a utilizar.
Se realizan los experimentos aleatoriamente con réplicas también aleatorizadas, y los resultados se
muestran en la siguiente Tabla.
Promedi X1 X2 X 1X 2
o
(-) 23.335 30 26.665
(+) 31.665 25 28.335
Efecto 8.33 -5 1.67
donde
SSTotal = Suma total de cuadrados.
SSEfectos = Suma de cuadrados debida a los tratamientos.
SSError = Suma de cuadrados debida al error.
98
Para el análisis de la varianza de un diseño factorial donde con varias réplicas en los puntos del
diseño, la suma total de cuadrados viene definido por:
2 2 r
Y2
SSTotal Yijk2
i 1 j 1 k 1 Nr
donde:
N = número de pruebas experimentales;
r = número de réplicas en el diseño.
O sea, SSTotal es igual a la suma de cada una de las respuestas elevadas al cuadrado, menos la suma de
todas las respuestas elevada al cuadrado dividida el número total de experimentos por el número de
réplicas efectuadas
En el ejemplo:
4 *3
9398
330
2
12
= 323
La suma de cuadrados de los efectos e interacciones se da por la siguiente relación:
2
N
X ij Yj
i 1
SS Efecto
Nr
En el ejemplo:
SS X 1 208.33
4 *3
SS X 2 75.00
4 *3
80 90 100 60
2
SS X 1 X 2 8.33
4 *3
SS Efectos SS X1 SS X 2 SS X1 X 2 208.33 75.00 8.33 29166
.
SS SS Efectos SS Error
De la ecuación Total , se obtiene SSError: de la siguiente forma:
SSError = SSTotal - SSEfecto = 323 - 291.66 = 31.34
A través del cálculo del efecto se observa que la variable X 1, (concentración del reactivo) tiene
incidencia importante en el proceso. La manera precisa y estadística de medir la importancia de esa variable
es por el Teorema de Cochran, que se resume en la siguiente expresión:
MS Efectos
Fo
MS Error
donde:
MSEfectos = SSEfectos/glT
MSErrror = SSError/glE
de aquí:
glT = grados de libertad de los efectos e interacciones. Igual a 1 en los diseños factoriales a dos niveles (2-
1=1)
99
glE = grados de libertad de la suma de cuadrados del error. Igual a:
nr
n i 1
ri 1
Esto es, la sumatoria de el número de réplicas menos 1
En el ejemplo:
glT = 2 - 1 = 1
MSEfectos(X2) = 75/1 = 75
Nótese que los valores a sustituir para las variables corresponde a los valores codificados +1 y -1
Obtenido este modelo, debe ser verificado experimentalmente para comprobar su validez.
100
Tabla 8.7: Análisis de residuos para el ejemplo.
Yr
R = (Yr - Y )
N X1 X2 Y1 Y2 Y3 Y
Y
RY1 Ry2 RY3
1 -1 -1 28 25 27 26.67 25.83 +2.16 -0.835 +1.16
5 5 5
2 +1 -1 36 32 32 33.33 34.16 +1.83 -2.165 -2.165
5 5
3 -1 +1 18 19 23 20.00 20.83 -2.835 -1.835 +2.16
5 5
4 +1 +1 31 30 29 30.00 28.16 +1.83 +0.83 -0.165
5 5 5
Con estos datos se calcula la suma de cuadrados residual del modelo, SSMR
2
Y Y
Nr
SSM R
i 1 Nr I
donde:
Y = Y estimado o respuesta según el modelo.
Y = Y observado o respuesta experimental
Nr = número total de experimentos.
I = número de parámetros del modelo matemático.
Nr-I = grados de libertad del residuo = glR
En el ejemplo:
SSM R
2.1652 0.8352 ... 0165
. 39.67
2
4.41
(4) (3) (3) 9
SSM R 4.41
Fo 1124
.
MS Error 3.92
F(0.05; 9, 8 ) = 3.39
X1 X2
Nivel Inferior (-) 15 1
Nivel Superior (+) 20 2
Centro del diseño, (Zo) 17.5 1.5
Radio del Diseño ( Z) 2.5 0.5
Relación E 7 3
Y D ao a1 X 1 a2 X 2
y se obtiene:
ao Y X 1 E X 1 X 2 E X 2
2 2
X2
2 2.5
a2 5.0
Z X 2 0.5
En términos generales:
k
j k
ij
ao Y E j Eij ; i j
j 1 2 ij 1 2
j ij
k 1
2 2
aj ; i j
Z j ij 1 Z j
ij
2
a ij
Z Z
i j
102
8.4. Diseños factoriales fraccionados a dos niveles
Los diseños factoriales completos son buenos en el sentido que proveen estimados para los efectos de
todos los factores, así como los efectos de posibles interacciones. Una desventaja es que estos diseños
requieren mayores cantidades de experimentos cuando más de cuatro factores se necesitan evaluar. Por
ejemplo, no es inusual necesitar desarrollar un experimento con 10 factores a dos niveles. Un diseño
factorial completo requeriría 2 10 = 1,024 experimentos, lo cual son demasiados para ejecutarse.
Como una alternativa a la posibilidad de tener gran cantidad de variables, se presentan los diseños
factoriales fraccionados, en los que se ejecuta solo una fracción del total de experimentos que se requieren.
Lo negativo del método es que parte de la información sobre interacciones se llega a perder.
Supóngase que se tiene tres factores, A, B, y C y se les quiere evaluar mediante un diseño factorial.
Para esto se tiene dos alternativas:
Esta dos alternativas se presentan en las Tablas 8.8 y 8.8. En esas Tablas, AB, AC, CB y ABC
representan la interacción entre los tres factores.
Obsérvese que en la Tabla 8.9 la columna A es igual a la columna BC; B = AC; C = AB. Ya que los
valores de tales columnas son iguales, no es posible determinar si el efecto calculado de la columna A es
debido al factor A o debido a la interacción BC. Usualmente las interacciones son relativamente pequeñas
comparadas con los efectos de los factores, lo que en parte justifica el uso de los diseños fraccionados.
Tabla 8.8: Diseño factorial completo con tres factores a dos niveles, N =-23 = 8
N A B C AB AC BC ABC
1 -1 -1 -1 +1 +1 +1 -1
2 -1 -1 +1 +1 -1 -1 +1
3 -1 +1 -1 -1 +1 -1 +1
4 -1 +1 +1 -1 -1 +1 -1
5 +1 -1 -1 -1 -1 +1 +1
6 +1 -1 +1 -1 +1 -1 -1
7 +1 +1 -1 +1 -1 -1 -1
8 +1 +1 +1 +1 +1 +1 +1
Tabla 8.9: Diseño factorial fraccionado con tres factores a dos niveles, en 4 pruebas.
N A B C= A*B AB AC BC ABC
1 -1 -1 +1 +1 -1 -1 +1
2 -1 +1 -1 -1 +1 -1 +1
3 +1 -1 -1 -1 -1 +1 +1
4 +1 +1 +1 +1 +1 +1 +1
Consideremos ahora por ejemplo que se tiene cuatro factores A, B, C, y D; a evaluar un diseño
factorial fraccionado con 8 pruebas. Un diseño completo incluiría N = 2 4 = 16 pruebas. Para elaborar la
matriz codificada de diseño, obsérvese la Tabla 8.8 con 23 = 8. Es obvio en esta Tabla que la columna de
interacción ABC es poco probable de producirse con un efecto significativo; de modo que para 4 factores la
Tabla 8.8 puede reescribirse como se observa en la Tabla 8.10, considerando las respectivas interacciones.
103
Tabla 8.10: Diseño factorial fraccionado con cuatro factores a dos niveles, 8 pruebas.
104
k
8.5. Diseño factorial 2 con réplica en el punto central del diseño
El diseño factorial 2k asume una relación lineal entre las variables y la respuesta. De ser cierta la
linealidad, el modelo debe predecir adecuadamente todos los puntos del diseño, inclusive el punto central.
Aunque no se verifique linealidad perfecta, el modelo funcionará bastante bien si la linealidad se cumple de
manera aproximada. De no predecir adecuadamente el modelo, especialmente en el punto central, se
afirma que el modelo no es suficiente para explicar las respuestas en tal región y es posible asumir la
existencia de curvatura. Se debe realizar pruebas en el punto central del diseño para dar un es timado del
efecto de curvatura.
Respuesta
Y1
Y2
-1 0 +1
Variable A
Figura 8.4: Modelo lineal fijado a nivel bajo y alto, con probable curvatura en el centro.
160; +1
40.0 41.5
40.3
40.5
155; 0 40.7
40.2
40.6
39.3 40.9
150; -1
Tiempo de
-1 0 +1 reaccion, X1
30 35 40
105
Tabla 8.11: Matriz del diseño factorial con réplicas en el centro y respuestas experimentales.
Prueba Z1 Z2 X1 X2 X 1X 2 Respuesta
# Tiempo Temper Y
.
1 30 150 -1 -1 +1 38.3
2 40 150 +1 -1 -1 40.9
3 30 160 -1 +1 -1 40.0
4 40 160 +1 +1 +1 41.5
5 15535 0 0 40.3
5 15535 0 0 40.5
5 15535 0 0 40.7
5 15535 0 0 40.2
5 15535 0 0 40.6
Promedio general (exceptúa los puntos en el centro) = 40.425
Los promedios de bajo y alto nivel para los factores e interacción y el efecto se muestran a
continuación:
X1 X2 X 1X 2
Promedi
o
(-) 38.65 40.1 40.45
(+) 41.2 40.75 40.40
Efecto 1.55 0.65 -0.05
Obsérvese que los puntos replicados en el centro no son considerados en el cálculo de los efectos;
mas bien serán utilizados para hallar la suma de cuadrados del error.
no
o 2
SS Error Yi o Y
i 1
donde:
106
SSCurvatura
N no Y Y
o
N no
donde:
Y promedio de puntos exteriores del diseño.
En el ejemplo, la suma de cuadrados debida a los tratamientos es:
415. 40.9 40.0 39.3
2
SS X 1 2.4025
(4) (1)
SS X 2 0.4225
(4)(1)
39.3 415. 40.9 40.0
2
SS X 1 X 2 0.0025
(4)(1)
Como esta condición se cumple para X 1 y X2, el modelo matemático queda definido:
155
. 0.65
Y 40.425 X1 X2
2 2
Y 40.425 0.775 X 1 0.325 X 2
107
8.5.2 Análisis de residuos
N X1 X2 Yr Y R = (Yr - Y )
1 -1 -1 38.3 38.32 -0.025
5
2 +1 -1 40.9 40.87 0.025
5
3 -1 +1 40.0 38.97 0.025
5
4 +1 +1 41.5 41.52 0.025
5
2
Y Y
Nr
SSM R
i 1 Nr I
SSM R
0.0252 ... (0.025) 2 0.0025
(4)(1) (3)
SSM R 0.0025
Fo 0.06
MS Error 0.043
El modelo es adecuado si: Fo F(; glR , glE ). En el ejemplo: = 0.05; glR = 1; , glE = 4
F(0.05; 1, 4 ) = 7.71. Entonces el modelo matemático ajusta adecuadamente los datos experimentales.
El investigador decide realizar un diseño 2 3 = 8 experimentos con tres réplicas en el centro. La Tabla
8.13 muestra el diseño y sus resultados.
108
Tabla 8.13: Matriz del diseño factorial con réplicas en el centro y respuestas.
N Z1 Z2. Z3 X1 X2 X3 X 1X X 1X X 2X X 1X 2 X Respues
2 3 3 3 ta
Y
1 0.02 10 27.5 -1 -1 -1 +1 +1 +1 -1 94.0
2 0.06 10 27.5 +1 -1 -1 -1 -1 +1 +1 94.0
3 0.02 11 27.5 -1 +1 -1 -1 +1 -1 +1 94.6
4 0.06 11 27.5 +1 +1 -1 +1 -1 -1 -1 92.2
5 0.02 10 33.5 -1 -1 +1 +1 -1 -1 +1 92.5
6 0.06 10 33.5 +1 -1 +1 -1 +1 -1 -1 92.5
7 0.02 11 33.5 -1 +1 +1 -1 -1 +1 -1 93.2
8 0.06 11 33.5 +1 +1 +1 +1 +1 +1 +1 92.1
9 0.04 9.5 30.5 0 0 0 92.5
9 0.04 9.5 30.5 0 0 0 92.4
9 0.04 9.5 30.5 0 0 0 92.4
Promedio general (exceptúa puntos en el centro) Y = 93.1375
Con los datos obtenidos se calcula el efecto para cada una de las variables e interacciones, como
sigue:
X1 X2 X3 X 1X 2 X 1X 3 X 2X 3 X 1 X 2X 3
-0.87 -0.22 -1.12 -0.87 0.32 0.37 .0325
0.87 112
. 0.87
Y 931375
. X1 X3 X1 X 2
2 2 2
Y 931375
. 0.435 X 1 0.56 X 3 0.435 X 1 X 2
Siendo el efecto de la curvatura muy significativo, se concluye que la región óptima se encuentra en el
centro del diseño. Con estos resultados, el investigador decide aplicar un diseño de escalamiento. Además,
en razón de la significación de la interacción X1X2 es de esperar que el pH también tenga significación en el
proceso, por lo que se le deberá incluir en la etapa de escalamiento.
109
Análisis de residuos
N X1 X3 X 1X Yr Y R = (Yr - Y )
2
1 -1 -1 +1 94.0 93.7 0.3
2 +1 -1 -1 94.0 93.7 0.3
3 -1 -1 -1 94.6 94.57 0.025
5
4 +1 -1 +1 92.2 92.82 -0.625
5
5 -1 +1 +1 92.5 92.57 -0.075
5
6 +1 +1 -1 92.5 92.57 -0.075
5
7 -1 +1 -1 93.2 93.45 -0.25
8 +1 +1 +1 92.1 91.70 -0.4
2
Y Y
Nr
Fo
SSM R 0.20125
60.985
SSM R SSM R
0.20125
0.20125 MS Error 0.0033
i 1 Nr I 84
El modelo es adecuado si: Fo F(; glR , glE ). En el ejemplo: = 0.01; glR = 4; , glE = 2
F(0.05; 4, 2 ) = 98.25. Entonces el modelo matemático ajusta adecuadamente los datos experimentales.
Para las 4 variables (k=4), se puede utilizar un diseño 24-1 = 8 experimentos. El diseño se lleva a cabo
con tres réplicas en el centro. La variable codificada X4 se reemplaza por los valores codificados
correspondientes a la interacción X1X2X3 ya que esta interacción tiene muy pocas probabilidades de ser
importante.
110
Tabla 8.14: Matriz del diseño factorial fraccionado con réplicas en el centro y respuestas.
N X1 X2 X3 X4 X 1X X 1X X 1X Z1 Z2 Z3 Z4 Y
2 3 4 t, min. pH Colect, Espum
lb/ton .
lb/ton
1 -1 -1 -1 -1 +1 +1 +1 5 8.5 0.1 0.2 87.7
2 +1 -1 -1 +1 -1 -1 +1 8 8.5 0.1 0.4 90.4
3 -1 +1 -1 +1 -1 +1 -1 5 9.5 0.1 0.4 87.5
4 +1 +1 -1 -1 +1 -1 -1 8 9.5 0.1 0.2 92.0
5 -1 -1 +1 +1 +1 -1 -1 5 8.5 0.2 0.4 84.0
6 +1 -1 +1 -1 -1 +1 -1 8 8.5 0.2 0.2 86.4
7 -1 +1 +1 -1 -1 -1 +1 5 9.5 0.2 0.2 85.0
8 +1 +1 +1 +1 +1 +1 +1 8 9.5 0.2 0.4 88.2
9 0 0 0 0 6.5 8.5 0.15 88.9 0.3
9 0 0 0 0 6.5 8.5 0.15 88.7 0.3
9 0 0 0 0 6.5 8.5 0.15 88.5 0.3
Promedio general (exceptúa puntos en el centro) Y = 87.65
o
Promedio para pruebas en el centro Y = 88.70
De la Tabla 8.14 se deduce que X4 = X1X2X3 , X1X2 = X3X4 ; X1X3 = X2X4 ; X1X4 = X2X3
Con los datos obtenidos se calcula el efecto para cada una de las variables e interacciones, como
sigue:
X1 X2 X3 X4 X 1X 2 X 1X 3 X 1X 4
3.2 1.05 -3.5 -0.25 0.65 -0.1 0.35
2
N
X ij Yj
SS Efecto i 1
Nr
no
o 2
SS Error Yi o Y
i 1
SSCurvatura
N no Y Y
o
N no
se construye la Tabla del análisis de la varianza.
111
Tabla 8.15: Análisis de la Varianza para el ejemplo.
Fuente SS g.l. MS Fo
X1 20.48 1 20.48 512.0 Tiempo
Análisis de residuos
N X1 X3 Yr Y R = (Yr - Y )
1 -1 -1 87.7 87.8 -0.1
2 +1 -1 90.4 91.0 -0.6
3 -1 -1 87.5 87.8 -0.3
4 +1 -1 92.0 91.0 1.0
5 -1 +1 84.0 84.3 -0.3
6 +1 +1 86.4 87.5 -1.1
7 -1 +1 85.0 84.3 0.7
8 +1 +1 88.2 87.5 0.7
2
Y Y
Fo
SSM R 0.0748
18.70
Nr
3.74
SSM R SSM R 0.748 MS Error 0.04
i 1 Nr I 83
El modelo es adecuado si: Fo F(; glR , glE ).; F(0.05; 5, 2 ) = 18.30. Entonces el modelo matemático
ajusta adecuadamente los datos experimentales.
112
a) Utilizar el vector generador como la primera fila, n1
b) La segunda fila, n2, se llena tomando el primer valor de n1 y colocándolo en el último lugar de la fina n2 y
deslizando luego los demás valores de n1 delante de ese primer valor.
c) La tercera fila, n3, se construye utilizando el último valor de la fila n2 y colocándolo en el último lugar de la
fila n3 y deslizando a partir de ese los restantes valores de n2 .
d) Continuar hasta que todas las (n-1) filas se completen.
e) Completar la fila n con valores negativos (-1)
Los vectores generadores para los diversos diseños P-B son como sigue:
n=8 + + + - + - -
n = 12 + + - + + + - - - + -
n =16 + + + + - + - + + - - + - - -
n = 20 + + - - + + + + - + - + - - - - + + -
n = 24 + + + + + - + - + + - - + + - - + - + - - - -
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Obsérvese que los valores de n son múltiplos de 4 y el total de variables a experimentar (inclusive las
variables ficticias) es igual a n-1.
Supóngase que se quiere experimentar con 4 variables (k=4), el número de pruebas es n = 8 y el total
de variables a considerar es n-1 = 7, según la Tabla 8.16. Obsérvese que si son 4 variables reales y 7 el
total de variables a considerar, entonces 3 variables serán ficticias.
Tabla 8.16: Diseño P-B con 4 variables reales, 3 variables ficticias y 8 pruebas
N X1 X2 X3 X4 F1 F2 F3
1 + + + - + - -
2 + + - + - - +
3 + - + - - + +
4 - + - - + + +
5 + - - + + + -
6 - - + + + - +
7 - + + + - + -
8 - - - - - - -
Ahora supóngase que se desea experimentar con 8 variables. Se escoge un diseño P-B con 12 pruebas y
11 variables. La matriz codificada se da en la Tabla 8.17.
Tabla 8.17: Diseño P-B con 8 variables reales, 3 variables ficticias y 12 pruebas
N X1 X2 X3 X4 X5 X6 X7 X8 F1 F2 F3
1 + + - + + + - - - + -
2 + - + + + - - - + - +
3 - + + + - - - + - + +
4 + + + - - - + - + + -
5 + + - - - + - + + - +
6 + - - - + - + + - + +
7 - - - + - + + - + + +
8 - - + - + + - + + + -
9 - + - + + - + + + - -
10 + - + + - + + + - - -
11 - + + - + + + - - - +
12 - - - - - - - - - -
113
8.8.1. Ejemplo de diseño P-B
En el estudio de separación de Molibdeno del concentrado bulk Cu-Mo se parte de las siguientes
premisas:
- El NaHS actúa como depresor de la chalcopiritra (CuFeS 2). Se investiga el efecto del NaHS en términos
de la estabilidad del HS -, para lo cual se controla el potencial redox de la solución.
- El nitrógeno actúa en la flotación como agente protector que evita la oxidación del NaHS. Se evalúa si el
N2 ejerce algún efecto en la eficiencia de separación.
- Se evalúa también el tiempo de acondicionamiento y el tiempo de flotación.
c) Consumo de NaHS, Y3
Según este cuadro, el factor más importante es el potencial redox, ( X1 ). El paso de -200 mV. a -400
mV mejora 48.48 % la recuperación.
114
Siguiendo el proceso de cálculo se determina:
2
N
X ij Yj
no
SS Error EF
2
SS Efecto i 1 i 1
Nr
donde:
EF = efecto de las variables ficticias.
SS Error ( 0.96) 2 ( 4.62) 2 22.27
SS Error
MS Error
nF
donde:
nF = número de variables ficticias.
22.27
MS Error 1114
.
2
Con todos esos cálculos que se construye la Tabla del análisis de la varianza.
Análisis de residuos
X1 X2 X5
N Yr Y R = (Yr - Y )
1 + + - 18.00 9.65 8.35
2 + + - 2.30 9.65 -8.35
3 + - + 9.00 12.55 -2.55
4 - + + 84.00 78.31 4.70
5 + - + 15.10 12.55 2.55
6 - - - 38.80 42.85 -3.05
7 - + + 74.60 78.31 -4.70
8 - - - 45.90 42.05 3.06
115
2
Y Y
Nr
SSM R
i 1 Nr I
215.24
SSM R 5381
.
84
SSM R 5381 .
Fo 4.82
MS Error 1114
.
El modelo es adecuado si: Fo F(; glR , glE ).; F(0.05; 4, 2 ) = 18.25. Entonces el modelo matemático
ajusta adecuadamente los datos experimentales.
N X X F1 X X X F2 Z1 Z Z3 Z4 Z5 Y2.
1 2 3 4 5 2
1 + + + - + - - -200 2 N2 5 5 1.48
2 + + - + - - + -200 2 O2 2 5 0.15
3 + - + - - + + -200 0 N2 2 10 0.65
4 - + - - + + + -400 2 N2 5 10 22.97
5 + - - + + + - -200 0 O2 5 10 1.77
6 - - + + + - + -400 0 O2 5 5 4.98
7 - + + + - + - -400 2 O2 2 10 16.53
8 - - - - - - - -400 0 N2 2 5 5.13
Con los datos obtenidos se calcula el efecto para cada una de las variables para eficiencia de
concentración del molibdeno, Y2
X1 X2 F1 X3 X4 X5 F2
-11.54 7.30 -1.44 -1.85 2.04 7.40 1.11
SS Error ( 144
. ) 2 ( 111
. ) 2 3.32
3.32
MS Error 166
.
2
Con todos esos cálculos que se construye la Tabla del análisis de la varianza.
116
Tabla 8.21: Análisis de la Varianza para el ejemplo de flotación de Molibdeno.
Fuente SS g.l. MS Fo
X1 266.34 1 266.34 160.44 Potencial
redox,
X2 106.58 1 106.58 106.58 Carbón
activado
F1 4.18 1 4.18 2.52
X3 6.84 1 6.84 4.12 Gas
X4 8.28 1 8.28 4.99 Tiempo
acondic
X5 108.37 1 108.37 65.88 Tiempo flotac.
F2 2.46 1 2.46 1.48
Error 3.32 2 1.66
Total 507.38 9
Análisis de residuos
X1 X2 X5
N Yr Y R = (Yr - Y )
1 + + - 1.48 0.81 0.67
2 + + - 0.15 0.81 -0.66
3 + - + 0.65 0.91 -0.26
4 - + + 22.97 18.75 3.32
5 + - + 1.77 0.91 0.26
6 - - - 4.98 5.05 -0.07
7 - + + 16.53 18.75 -3.32
8 - - - 5.13 5.05 0.08
2177
.
SSM R 5.44
84
SSM R 5.44
Fo 3.28
MS Error 166
.
El modelo es adecuado si: Fo F(; glR , glE ).; F(0.05; 4, 2 ) = 18.25. Entonces el modelo matemático
ajusta adecuadamente los datos experimentales.
117
8.8.1.3. Evaluación para consumo de NaHS, Y3
N X X F1 X X X F2 Z1 Z Z3 Z4 Z5 Y3.
1 2 3 4 5 2
1 + + + - + - - -200 2 N2 5 5 2.90
2 + + - + - - + -200 2 O2 2 5 6.50
3 + - + - - + + -200 0 N2 2 10 3.30
4 - + - - + + + -400 2 N2 5 10 5.80
5 + - - + + + - -200 0 O2 5 10 7.80
6 - - + + + - + -400 0 O2 5 5 15.40
7 - + + + - + - -400 2 O2 2 10 14.90
8 - - - - - - - -400 0 N2 2 5 7.00
Con los datos obtenidos se calcula el efecto para cada una de las variables para consumo de NaHS, Y3
X1 X2 F1 X3 X4 X5 F2
5.65 -0.85 2.35 6.40 0.05 0.00 -0.40
5.68
MS Error 2.84
2
Con todos esos cálculos que se construye la Tabla del análisis de la varianza.
118
8.8.1.4. Conclusiones
De las tres evaluaciones se concluye que el potencial redox tiene importante influencia en el proceso, y
que a valores más negativos (-400 mV) es beneficiosa para la eficiencia de separación, así como para la
eficiencia de concentración del molibdeno, influyendo también en el consumo del NaHS.
También se concluye que el uso del nitrógeno es beneficioso porque reduce el consumo de NaHS.
Se esperaba que los cambios de la magnitud planeada introducirían efectos transitorios que
desaparecerían en 6 horas. Se dejaron 18 horas más de operación en condiciones estacionarias para hacer
las mediciones necesarias.
2
La respuesta que se evalúa es el costo medio por tonelada. El diseño empleado fue un factorial de 2
con un punto central. Los resultados al final de la Fase I se muestran en la Tabla 8.24 y son medidas
obtenidas luego de 5 repeticiones
.
119
Tabla 8.24: Experimentación EVOP de una planta petroquímica. Fase I
Relación Flujo Costo por tonelada
Reflujo Reciclado.
6.7 7.5 92
6.7 8.0 86
7.1 7.5 95
7.1 8.0 91
6.9 7.75 92
En este momento se consideró que había suficientes pruebas para justificar un cambio a menor relación
de flujo y mayor reciclado. La fase II se abordo con cinco ciclos más, que confirma que se consiguen costos
más bajos, como se observa en la Tabla 8.25.
Con los cambios realizados se ensayaron con valores aún más altos para reciclado, lo cual motivó la
fase III, Tabla 8.26; esta fase concluyó después de 4 ciclos y condujo a la conclusión de que el costo más
bajo se obtiene con un valor de reflujo cercano a 6.3 y un reciclado de alrededor de 8.5, con un costo por
tonelada de 80 libras.
120
CAPITULO IX
9.1. Introducción
La metodología de superficies de respuesta, MSR, (ó RSM, Response Surface Methodology), es un
conjunto de técnicas matemáticas y estadísticas, útiles para modelar y analizar problemas en los cuales una
respuesta de interés es influida por varias variables, y el objetivo es optimizar la respuesta. Por ejemplo, un
ingeniero desea determinar los niveles de temperatura, (X1) y presión (X2) que maximicen el rendimiento
(Y) de un proceso. El rendimiento del proceso es función de los niveles de temperatura y presión, o sea;
Y = f(X1, X2) +
donde representa el error experimental observado en la respuesta Y. Si la respuesta esperada se denota
por E(Y) = f(X1, X2) = , entonces la superficie representado por:
= f(X1, X2)
se denomina superficie de respuesta.
Rendimiento Esperado, E(Y) =
Condiciones
actuales de
operación
de
icas
Graf rnos
o
cont
50
60
70 40
Te
m
pe
ra X 2
tu
ra si,
o
C, n,p
sió
Pre
X
1
Y = o + 1 X1 + 2 X2 + ... + k Xk +
Debe usarse un polinomio de mayor grado, por ejemplo el modelo de segundo orden,
k k
Y o i X i ii X i2 ij X i X j
i 1 i 1 i i
121
cuando existe curvatura en el sistema. Casi todos los problemas de MSR utilizan uno o ambos polinomios
de aproximación. Por supuesto, es imposible que un modelo polinomial sea una aproximación razonable de
la relación funcional real sobre todo el dominio de las variables independientes. Sin embargo, funcionan
muy bien en regiones relativamente pequeñas de las variables independientes.
La MSR es una técnica secuencial. A menudo, cuando se considera un punto sobre la superficie de
respuesta alejado del óptimo, como las condiciones de operación actuales de la Figura 9.1, el polinomio de
primer grado es apropiado porque existe poca curvatura en el sistema. En este caso, el objetivo consiste en
guiar al experimentador rápida y eficientemente a la cercanía general del punto óptimo. Una vez que se ha
determinado la región del punto óptimo, puede emplearse un modelo más elaborado, como por ejemplo el
de superficie de respuesta de segundo grado, y realizar un análisis para localizar el óptimo. A partir de la
Figura 9.1, se observa que el análisis de la superficie de respuesta puede interpretarse como el "ascenso a
la loma", donde la cima representa el punto de la respuesta máxima. Si el óptimo real es un punto de
respuesta mínima, se puede pensar en el "descenso hacia un valle"
k
Y i Xi
i 1
y la superficie de respuesta, o sea, las curvas de nivel de Y, constan de una serie de rectas paralelas, como
se muestra en la Figura 9.2. La dirección del ascenso máximo es aquella en la que Y aumenta más
rápidamente. Esta dirección es paralela a la normal de la superficie de respuesta ajustada. Por lo general, la
trayectoria de máxima pendiente en ascenso se toma como la recta que atraviesa el centro de la región de
interés y es normal a la superficie ajustada. Por lo tanto, los incrementos a lo largo de
X2
Y= 50
Y= 40
Y= 30
Y= 20
Y= 10
X1
Figura 9.2: Superficie de respuesta de primer orden y trayectoria de máxima pendiente de ascenso.
Z1 35 Z2 155
X1 ; X2
5 5
Tabla 9.1: Matriz del diseño factorial con 5 réplicas en el centro y respuestas experimentales.
Prueba Z1 Z2 X1 X2 X 1X 2 Respuesta
# Tiempo, Y
Temper. oF
min
1 30 150 -1 -1 +1 38.3
2 30 160 -1 +1 -1 40.0
3 40 150 +1 -1 -1 40.9
4 40 160 +1 +1 +1 41.5
5 35 155 0 0 40.3
5 35 155 0 0 40.5
5 35 155 0 0 40.7
5 35 155 0 0 40.2
5 35 155 0 0 40.6
Promedio general (exceptúa los puntos en el centro) = 40.425
X1 X2 X 1X 2
Promedi
o
(-) 38.65 40.1 40.45
(+) 41.2 40.75 40.40
Efecto 1.55 0.65 -0.05
123
F(; glT , glE ) = F(0.05; 1, 4) = 7.71
155
. 0.65
Y 40.425 X1 X2
2 2
Y 40.425 0.775 X 1 0.325 X 2
Habría que desplazarse 0.775 unidades en la dirección de X 1 por cada 0.325 unidades en la dirección
X2, para alejarse del centro del diseño, (el punto X1 = 0, X2 = 0) a lo largo de la trayectoria de máximo
ascenso. Por lo tanto, dicha trayectoria de máximo ascenso pasa por el punto ( X 1 = 0, X2 = 0) y tiene
una pendiente igual a 0.325/0.775.
A continuación se asigna un incremento, i, a una de las variables; por supuesto depende del criterio
del investigador, pero se acostumbra a hacer los incremento a la variable de mayor en el modelo
matemático obtenido. La ingeniera decide usar 5 minutos como tamaño de incremento básico del tiempo de
reacción. Se calcula los incrementos de las demás variables en función de la ya fijada, en forma
proporcional de la siguiente forma:
X1 X 2 X k
...
1 Z1 2 Z2 k Zk
donde:
X i
Incrementos naturales para la variable X i
ZiMAX ZiMIN
Zi radio del diseno
2
i = parámetro en el modelo matemático.
Habiéndose definido como incremento de tiempo, X1,de 5 minutos, el incremento de temperatura, X2,
se calcula:
5 X
2
40 30 160 150
(0.775) (0.325)
2 2
X 2
2.097
Un criterio adicional para definir los incrementos de las variable en el proceso de ascenso se establece
con el uso de la siguiente expresión:
A i A 1 A2
xi 1 o x1 1 x2 1
k 2 2
k 2 2
k 2 2
Considerando que los incrementos se inician desde el punto central, se elabora la Tabla 9.3 con las
respuestas de experimentación respectiva.
124
Tabla 9.3: Experimento de máximo ascenso para el ejemplo.
Variables naturales Variables Respuesta
Zi codificadas ,
Xi Y
Z1 Z2 X1 X2
Origen 35 155 0 0
5 2.097 1.00 0.4194
Origen + 40 157.097 1.00 0.4194 41.00
Origen + 2 45 158.194 2.00 0.8338 41.9
Origen + 3 50 161.291 3.00 1.2573 43.1
. . . . .
. . . . .
. . . . .
Origen +9 80 173.873 8.00 3.7746 77.6
Origen + 10 85 175.97 9.00 4.1940 80.3
Origen + 11 90 178.067 11.00 4.6134 78.2
Origen + 12 95 180.164 12.00 5.0328 75.1
La ingeniera calcula los puntos a lo largo de la trayectoria de ascenso, según se muestran en la Tabla
9.3 y observa el rendimiento en cada punto, hasta notar un decremento en la respuesta. Se observa un
incremento en la respuesta hasta el décimo incremento; sin embargo a partir del undécimo se produce un
decremento en el rendimiento. Por lo tanto, se debe ajustar otro modelo de primer orden en la cercanía
general del punto Z1 = 85 min., Z2 =175 oF.
Se ajusta un nuevo modelo de primer orden alrededor del punto Z1 = 85 min., Z2 =175 oF. La región de
exploración para Z1 es 80 -90 min. y para Z2 es 170 - 180 o F. Se utiliza un diseño 2 2, centrado en cinco
punto. Los datos se expresan en la Tabla
Tabla 9.4: Matriz del diseño factorial con 5 réplicas en el centro y respuestas experimentales para el
segundo modelo de primer orden.
Prueba Z1 Z2 X1 X2 X 1X 2 Respuesta
# Tiempo, Y
Temper. oF
min
1 80 170 -1 -1 +1 76.5
2 80 180 -1 +1 -1 77.0
3 90 170 +1 -1 -1 78.0
4 90 180 +1 +1 +1 78.5
5 85 175 0 0 78.9
5 85 175 0 0 80.3
5 85 175 0 0 80.0
/5 85 175 0 0 78.7
5 85 175 0 0 78.8
Promedio general (exceptúa los puntos en el centro) = 77.75
o
Promedio para pruebas en el centro Y = 78.94
X1 X2 X 1X 2
Promedi
o
(-) 76.75 77.25 77.5
(+) 78.75 78.25 78.0
Efecto 2.00 1.00 0.50
125
Tabla 9.5: Análisis de la Varianza para el ejemplo.
Fuente SS g.l. MS Fo
X1 4.00 1 4.00
75.47
X2 1.00 1 1.00 18.86
X 1X 2 0.25 1 0.25 4.72
Curvatura 9.658 1 9.658 201.09
Error 0.212 4 0.053
Total 16.120 8
La curvatura que presenta este modelo matemático indica que este no es una aproximación adecuada;
además que indica la proximidad del punto óptimo. En este momento debe hacerse un análisis adicional
para localizar el óptimo con mayor precisión.
9.3. Diseños para ajustar modelos de segundo orden: el diseño factorial 3 k y diseño central compuesto
Los diseños de primer orden no conducen a determinar superficies que describan un máximo o un
mínimo. Por esta razón se requiere por lo menos de un modelo de segundo orden. El diseño factorial 2 k no
puede ser utilizado para estimar los coeficientes en un modelo de segundo orden tal como:
k k
Y o i X i ii X i2 ij Xi X j
i 1 i 1 i j
Esto porque se necesita por lo menos tres diferentes niveles para cada factor para estimar una función de
segundo orden. Se puede utilizar un diseño factorial 3k, donde cada factor se dispone a tres niveles: (+), (0),
y (-). Para k = 2 se diseña la matriz codificada según se muestra en la Tabla 9.6.
Un problema con los diseños factoriales 3 k es que el número de pruebas se incrementa rápidamente
con k. Otros diseños, tales como el diseño compuesto central (dcc) han sido desarrollados para simplificar el
número de pruebas. En estos se inicia el trabajo con un diseño factorial 2 k y se adicionan 2k puntos
axiales, de la siguiente forma:
( w, 0,..., 0),(0, w, 0,..., 0),...,(0,..., w)
126
Tabla 9.7:Diseño compuesto central k = 2 Tabla 9.8: Diseño compuesto central k = 3
N X1 X2 N X1 X2 X3
1 -1 -1 1 -1 -1 -1
2 +1 -1 2 +1 -1 -1
3 -1 +1 3 -1 +1 -1
4 +1 +1 4 +1 +1 -1
5 -w 0 5 -1 -1 +1
6 w 0 6 +1 -1 +1
7 0 -w 7 -1 +1 +1
8 0 w 8 +1 +1 +1
9 0 0 9 -w 0 0
: : 10 w 0 0
n 0 0 11 0 -w 0
12 0 w 0
13 0 0 -w
14 0 0 w
15 0 0 0
: : :
. . .
n 0 0 0
X
2
X
1
Figura 9.3: Diseño compuesto central k = 2 Figura 9.4: Diseño compuesto central k = 3
Además, se hacen varias observaciones en el punto central (0, 0, ... ,0), sean estos n1. Esto conduce a un
total de n = 2k + 2k + n1. pruebas, un número que es mucho menor que 3k. Mas aún, si w 1, cada variable
se mide a 5 puntos diferentes, sean ellos, -w, -1, 0, 1, y w; esto permite realizar un mejor estimado de la
curvatura.
El diseño compuesto central para k = 2 factores, se muestra en la Tabla 9.7. El valor de w se
selecciona por el experimentador. Se pueden utilizar diversos criterios para hacer la selección. Por ejemplo
se puede escoger w = 2 . Entonces el diseño es rotable, porque, geométricamente, todos los puntos del
diseño corresponden a un círculo de radio 2 .
El diseño compuesto central para k = 3 factores, se muestra en la Tabla 9.8. Frecuentemente, con k =
3
4
3, w se selecciona como w = 2 = 1.682. Nótese que con un punto central (n1.= 1) este diseño consta de
solo 15 pruebas, mientras que el diseño 3 3 requiere 27 pruebas. Para más de tres variables, la ventaja,
para el diseño compuesto central en términos de número de pruebas, se hace más notoria.
E (Y ) o 1 X 1 2 X 2 11 X 12 22 X 22 12 X 1 X 2
127
Dependiendo de los valores de los coeficientes, se puede describir diferentes superficies de respuesta. Los
tres más comunes son aquellos con un máximo, un mínimo, ó un punto "silla de caballo". Gráficos de los
contornos de estos tres tipos de superficie se muestran en la Figura 9.5.
X2 X2
X2
90 70
80 80
50
70 90
60 90
70
80 80
90 70
60
50
X1 X1 X1
Figura 9.5: Gráficos de contornos de modelos de segundo orden : a) mínimo; b) máximo, c) "silla de
caballo".
Alejándose del punto crítico (el punto del óptimo) en cualquier dirección, resulta en una disminución (o
incremento) de la respuesta. Sin embargo, en el caso del punto en "la silla de caballo" el experimentador
puede obtener un incremento o disminución en la respuesta cuando se aleje del punto crítico, dependiendo
de la dirección que tome.
Para determinar el punto crítico, denominado también el punto estacionario, se establece las siguientes
derivadas igual a cero:
E ( y)
1 2 11 X 1 12 X 2 0
X1
E ( y)
2 2 22 X 2 12 X 1 0
X2
12 2 2 22 1
X 1, 0
4 11 22 122
12 1 2 11 2
X 2,0
4 11 22 122
2 11 2 22
122 0
sean 1 y 2 son ambas negativas, la función tiene un máximo en el punto estacionario (X1,0, X2,0). Si
ambas son positivas, existe un mínimo; sin embargo, si presentan diferentes signos, se trata de una
superficie de "silla de caballo".
Ahora, existen diversos métodos analíticos que se pueden utilizar para investigar la naturaleza de las
superficies de respuesta. Por ejemplo en el caso del la "silla de caballo", esos métodos indican la dirección
128
en la que se debe mover a fin de incrementar la respuesta. En el caso del máximo, esos métodos indican la
dirección en la que la disminución de la respuesta es la más lenta. Esta información es importante, ya que
indica al experimentador la dirección en la cual la respuesta es menos sensible a cambios en los factores de
ingreso. Esos métodos están fuera del objetivo de este curso y tan solo se indicará que con k = 2 factores,
se puede graficar los contornos de la superficie estimada de segundo orden y efectuar evaluaciones
gráficas.
indicaba que este no respondía adecuadamente a los datos experimentales, por el notorio efecto de
curvatura.
La experimentadora decide aumentar estos datos con suficientes puntos para ajustar un modelo de
segundo orden a través de un diseño compuesto central. Diseña cuatro observaciones:
. ; X 1 0, X 2 1414
considerando 2 1414 . y en X 1 1414
. , X 2 0
El conjunto completo de los datos se muestra en la Tabla 9.9 y el diseño en la Figura 9.6
E (Y ) o 1 X 1 2 X 2 11 X 12 22 X 22 12 X 1 X 2
se ajusta mediante mínimos cuadrados usando los datos codificados. el resultado es:
Y 79.9408 0.9949 X 1 0.5151 X 2 1377
. X 12 10018
. X 22 0.25 X 1 X 2
129
X2
+2
(0, 1.414)
(-1,1) (1,1)
X1
-2 (-1.414, 0) (0,0) (1.414, 0) +2
(-1,-1) (1,-1)
(0, -1.414)
-2
Z2 175 Z 175
X2 ; 0.3056 2 Z2 176.53 o F
5 5
Usando la ecuación de segundo orden obtenida con el diseño experimental, y reemplazando los
valores en el punto estacionario, (X2 = 0.389, X2 = 0.3056), se obtiene:
Y 80.213
La forma más simple de caracterizar la superficie de respuesta consiste en construir una gráfica de
contornos del rendimiento en función del tiempo y temperatura. El gráfico tridimensional que se obtenga
permitirá observar las tendencias de la respuesta por cambios en los valores de tiempo y temperatura.
Los valores propios de 1, 2 son las raíces de la ecuación:
2 11 2 22
122 0
que se reduce a:
2 + 4.7576 + 5.4554 = 0
Las raíces de esta ecuación cuadrática son 1 = - 1.415 2 = - 0.964. Siendo ambos valores negativos, el
punto estacionario es un máximo.
De ese modo, a pesar que el experimentador inicio su estudio con un tiempo de reacción de 35 minutos
y temperatura de 155 oF produciendo un rendimiento de cerca de 40 %., una secuencia de experimentos
iterativos le ha conducido a un máximo.
130
9.5. Diseños experimentales para ajustar superficies de respuesta
El ajuste y análisis de superficies de respuestas se facilita en gran medida con la elección apropiada de
un diseño experimental. Cuando se selecciona un diseño de superficie de respuesta, algunas de las
características deseables de un diseño son como sigue:
a) Proporciona una distribución razonable d puntos de datos (y por lo tanto de información) en toda la
región de interés.
b) Permite investigar la idoneidad del modelo, incluyendo la falta de ajuste.
c) Permite la realización de experimentos en bloques.
d) Permite la construcción secuencial de diseños de orden superior.
e) Proporciona una estimación de error interna.
f) No requiere de número grande de corridas.
g) No requiere demasiados niveles de la variables independientes.
h) Asegura la simplicidad de los cálculos de los parámetros del modelo.
Algunas veces estas características son conflictivas, así que debe aplicarse el buen juicio en la
elección del diseño.
hay una clase única de diseños que minimizan la varianza de los coeficientes de regresión, estos son los
diseños ortogonales de primer orden. Esta clase de diseños ortogonales de primer orden incluye diseños
k k
factoriales 2 y fraccionales de la serie 2 , en los que los efectos principales no son alias entre sí. Al usar
estos diseños se considera que los k factores se codifican a los niveles estandarizados 1. Como ejemplo,
3
supongamos que se usa el diseño 2 para ajustar el diseño de primer orden:
Y o 1 X1 2 X 2 3 X 3
-1 -1 -1
1 -1 -1
-1 1 -1
1 1 -1
-1 -1 1
1 -1 1
-1 1 1
1 1 1
k
El diseño 2 no permite la estimación del error experimental a menos que se repitan algunos ensayos . Un
método común para incluir la repetición de ensayos consiste en aumentar las repeticiones en el centro. La
adición de puntos centrales no tiene influencia sobre las i para i 1, pero como resultado, la estimación de
0 es el promedio general de todas las observaciones. Además, agregar puntos centrales no altera las
propiedades del diseño.
Otro diseño ortogonal de primer orden es el simplex. Este se representa por una figura regular con k+1
vértices en k dimensiones. Así, para k=2 el diseño simplex es un triángulo equilátero; mientras que para
k=3 es un tetraedro regular; como se muestra las Figuras 9.7
131
x1
x3
x2
x1
x2
(a) (b)
Figura 9.7: Diseño simplex para : (a) k-2 variables; (b) k=3 variables.
x2
x2
x1 x1
132
La matriz de diseño para un diseño pentagonal y hexagonal se establece como sigue;
N X1 X2 N X1 X2
1 1.0 0.0 1 1.0 0.0
2 0.309 0.951 2 0.5 0.866
3 -0.809 0.588 3 -0.5 0.866
4 -0.809 -0.588 4 -1.0 0.0
5 0.309 -0.951 5 -0.5 -0.866
6 0.0 0.0 6 0.5 -0.866
7 0.0 0.0
8 0.0 0.0
9 0.0 0.0
133