Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Ambiental PDF
Estadistica Ambiental PDF
JUREZ
AGOSTO DE 2006
Copyright 2006. Mtodos Estadsticos para la Ingeniera Ambiental y la Ciencia.
Hctor Adolfo Quevedo Uras
Advertencia
Prohibida la reproduccin de este libro, adems de los esquemas e ideas originales del
autor que se hallan en este texto, ya sea por medios electrnicos, mecnicos,
fotocopiado o de cualquier otra forma, puesto que todo esto pertenece al dominio de
la propiedad intelectual y est protegido por la ley.
Este libro fue publicado en el Internet en Enero de 2006 por la Biblioteca Virtual de la
Universidad Autnoma de Cd. Jurez.
http://bivir.uacj.mx/LibrosElectronicosLibres/UACJ/ua00001.pdf
CONTENIDO
Pgina
Introduccin i
Apndices
iii
Dr. Hctor Quevedo Uras
CAPITULO 1
Estadstica Descriptiva
1-1
Dr. Hctor Quevedo Uras
1-2
Dr. Hctor Quevedo Uras
1-3
Dr. Hctor Quevedo Uras
n
Ejemplo #1. Xj = X1 + X2 + X3 + ... + Xn
j=1
1-4
Dr. Hctor Quevedo Uras
n
Ejemplo #2. XjYj = X1Y1 + X2Y2 + X3Y3 + ...+ XNYn
j=1
n
Ejemplo #3. aXj = aX1 + aX2 +...+ aXn
j=1
n
= a(X1 + X2 +,..,+ Xn) = a Xj
j=1
= X 2 - (X)2/n
El promedio aritmtico
El promedio aritmtico es un valor el cual es tpico o representativo de un conjunto de
datos de distribuciones continuas. Existen diferentes tipos de promedios. Los ms
comunes son el promedio aritmtico, la mediana, la moda, el promedio geomtrico, el
promedio harmnico, etc. Cada uno tiene sus ventajas y desventajas dependiendo de
los datos y el propsito a seguir. El promedio aritmtico no se debe usar como
sinnimo de promedio o media, porque hay otros tipos de promedios.
El promedio aritmtico es un valor que representa un conjunto de datos; es una
medicin de tendencia central. El promedio aritmtico es el estimador del parmetro
1-5
Dr. Hctor Quevedo Uras
Si los nmeros X1, X2, X3,,Xk ocurren f1, f2,,fk veces, es decir, con datos
agrupados, entonces:
X = fXi / n (1-3)
Ejemplo #5. Calcular X , de una muestra de 5, 8, 6, y 2 casos que ocurren con una
frecuencia de de 3, 2, 4, y 1.
X = [(3)(5) + (2)(8) + (4)(6) + (1)(2)]/(3+2+4+1) = 5.7
La mediana
~
La mediana, X es el valor de en medio de un grupo de nmeros u observaciones
(puestas en forma ascendente) o el promedio aritmtico de los dos valores de en
medio. Geomtricamente hablando, la mediana es el valor de X (abscisa)
correspondiente a esa lnea vertical que divide a un histograma en dos partes teniendo
reas iguales. La mediana es una posicin de promedio, mientras que el promedio
aritmtico es un promedio calculado.
1-6
Dr. Hctor Quevedo Uras
La moda es una estadstica que demuestra el valor que ocurre con ms frecuencia en
una muestra (poniendo los datos en forma ascendente). Una distribucin puede tener
una moda, puede ser bimodal, etc. Este valor se denota por X . Sin embargo, algunas
ocasiones la moda no existe.
Ejemplo #8. La muestra de observaciones 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene
una moda de X = 9, es decir, el valor que ocurre con ms frecuencia.
Ejemplo #9. Los valores 3, 5, 8, 10, 12, 15, 16 no tienen moda.
Ejemplo #10. La muestra de observaciones 2 ,3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos
modas, 4 y 7 y es bimodal, es decir, X = 2.
1-7
Dr. Hctor Quevedo Uras
Ejemplo #12. Encontrar el promedio, la mediana y la moda de los casos 48.7, 48.8,
1-8
Dr. Hctor Quevedo Uras
El promedio geomtrico
El promedio geomtrico se usa como un disfraz de transformacin logartmica. Es til
para promediar tasas de crecimiento (aumento o decremento) de una muestra
estadstica. La frmula es:
G= n
x x x ... x
1 2 3 n
(1-4)
1-9
Dr. Hctor Quevedo Uras
La varianza
La varianza, s2 es una medida de dispersin y nos dice, qu tanta variacin existe de
una observacin a otra (o del promedio) o de una muestra a otra. Una s2 grande tiene
ms casos diversificados, que una con una varianza pequea. La varianza s2 de una
muestra estadstica (o de varias muestras) es el estimador del parmetro de la
varianza, 2 de una poblacin o poblaciones. La frmula de la varianza es:
n
s2 = (X - X )2/(n-1) = [X 2 (X)2/n]/(n - 1) (1-5)
i=1
= SS/(n 1)
1-10
Dr. Hctor Quevedo Uras
estadstica se da como:
s = [X 2 (X)2/n] / (n 1) (1-5a)
Para datos agrupados, la desviacin estndar es:
s = [fj X 2 (X)2/n] / (n 1) (1-5b)
Ejemplo #15. Para el ejemplo de arriba, calcular la desviacin estndar.
Solucin:
Si la varianza, s2 = 4, por lo tanto, la desviacin estndar, s es:
s = s2 = 4 = 2
Ejemplo #16. Encontrar X , s, s2, la mediana, el error estndar del promedio, el sesgo
y la kurtosis de una muestra al azar de 36 anlisis de fosfatos (PO4-3), en mg/L. Qu
tanta fidelidad hay en los datos? La tabla de abajo da la informacin.
__________________________________________________________________
Valores de X | 61 64 67 70 73 69 68 70
Frecuencia | 5 8 4 5 5 4 3 2
Solucin:
Usando un paquete de computadora da: X = 67.27, s = 3.78, s2 = 14.31, mediana =
68, sesgo = -0.22 y kurtosis = -0.95. Al juzgar por los resultados, hay una buena
aproximacin a la distribucin normal, puesto que X y la mediana son parecidos.
Adems el valor del sesgo no difiere mucho de 0. Se le pide al lector usar la frmula
(15-b) para corroborar los resultados computarizados obtenidos.
1-11
Dr. Hctor Quevedo Uras
Figura 1.2. Distribucin normal mostrando las reas para diferentes percentiles de la
variable estandarizada z (Spiegel, 1961).
Variable aleatoria estandarizada z
Esta variable aleatoria estandarizada z mide las desviaciones del promedio en
unidades de desviacin estndar y se da como:
z = (X - X ) / s. (1-6)
Su parmetro respectivo es:
Z = (X - )/ (1-7)
Ejemplo #16. Calcular las siguientes probabilidades:
(a) P(z 1.25)
(b) P(z > 1.25)
(c) P(z -1.25)
(d) P(-.38 z 1.25)
Solucin:
(a) Para esto, buscamos en la tabla de la distribucin normal del rengln marcado con
1-12
Dr. Hctor Quevedo Uras
1-13
Dr. Hctor Quevedo Uras
1-14
Dr. Hctor Quevedo Uras
As, de esta manera, los errores estndares del promedio, de las proporciones o
la mediana es, respectivamente:
X = N (1-9)
p = pq/N (1-9a)
med.= (para n 30) (1-9c)
2N
Trminos importantes
Parmetros. Se refieren a valores poblacionales. Se usan los smbolos griegos para
denotarlos.
Estadstica. Se refiere a una muestra tomada de una poblacin. Es un estimador de los
parmetros de poblacin.
Promedio aritmtico. Si se conoce toda la poblacin se usa la variable . Si se refiere
a una muestra estadstica, se usa la variable X . De cualquier manera el promedio
aritmtico es la sumatoria de un grupo de observaciones dividido entre el total de los
casos.
Promedio. En general un promedio se refiere a una medida de tendencia central.
Ejemplos son el promedio aritmtico, la mediana y la moda. Hay tambin promedios
geomtricos, armnicos, etc.
Mediana. Es el valor del tem central cuando los datos son agrupados por tamao
~
( X ).
Moda. Es el valor que ocurre con ms frecuencia ( X ).
Distribucin bimodal. Se refiere a una distribucin con dos modas.
1-15
Dr. Hctor Quevedo Uras
1-16
Dr. Hctor Quevedo Uras
1-17
Dr. Hctor Quevedo Uras
1-18
Dr. Hctor Quevedo Uras
la curva normal.
2. Curva asimtrica u oblicua cuyos extremos de la curva estn al lado derecho o al
izquierdo del mximo central.
3. Curva de frecuencia en forma de J.
4. Curva de frecuencia en forma de U.
5. Curva de frecuencia bimodal que tiene dos mximos.
6. La curva de frecuencia multimodal que tiene ms de dos mximos.
Figura 1.3 Grficas mostrando los tipos de curvas de frecuencia (Spiegel, 1961).
1-19
Dr. Hctor Quevedo Uras
1-20
Dr. Hctor Quevedo Uras
Ejemplo #20. Hacer una tabla de distribucin con intervalos de clase y la frecuencia
relativa para las alturas de 100 estudiantes de una universidad.
TABLA 1.0. Alturas de los estudiantes. (Spiegel, 1961).
___________________________________________________________________
Distribucin de las alturas Frecuencia relativa
por intervalos de clase de estudiantes (%)
___________________________________________________________________
60 - 62 pulgadas 5%
63 - 65 18 %
66 - 68 42 %
69 - 71 27 %
72 - 74 8%
_________________________________________________________
Total 100 %
1-21
Dr. Hctor Quevedo Uras
1-22
Dr. Hctor Quevedo Uras
1-23
Dr. Hctor Quevedo Uras
1-24
Dr. Hctor Quevedo Uras
o marca de clase.
(c) Para ambos casos construir un histograma y un polgono de frecuencia y tambin,
en funcin de frecuencia relativa.
(d) Para ambos casos, construir una grfica de frecuencia acumulada y frecuencia
relativa acumulada.
(e) Usar papel de probabilidad para estimar el promedio aritmtico y la desviacin
estndar. Comparar estos resultados con el clculo del promedio y la desviacin
estndar usando las frmulas estadsticas.
TABLA 1.3. Tabla mostrando las concentraciones de calcio de 40 anlisis de agua.
(Elaboracin propia)
Solucin:
Si se usan intervalos de clase de tamao 5, los intervalos de clase son 57/5 = 12,
aproximadamente. Sin embargo, si se usan intervalos de clase de tamao 9, los
intervalos de clase son 57/9 = 6, aproximadamente. Las tablas de abajo muestran estas
estimaciones.
1-25
Dr. Hctor Quevedo Uras
1-26
Dr. Hctor Quevedo Uras
Procedimiento:
Para formar el diagrama de tallo y hoja, se separa cada observacin en dos partes
1-27
Dr. Hctor Quevedo Uras
consistentes de un tallo y una hoja. Siendo as, el tallo representa el dgito que
precede al punto decimal y, la hoja, corresponde al dgito a la derecha del punto
decimal. Por ejemplo, con el nmero 3.7, el dgito 3 representa el tallo y el dgito 7
representa la hoja. De acuerdo a los datos de la TABLA 1.8 hay cuatro tallos, es
decir, 1, 2, 3, 4. Una vez hecho esto, se identifican los nmeros a la derecha del
punto decimal correspondientes a cada tallo. Por ejemplo, para el tallo 1 hay dos
hojas, 6 y 9; para el tallo 2 hay 5 hojas, es decir, 2, 5, 6, 9 y 5, etc. La TABLA 1.8
de abajo representa la grfica de tallo y hojas para este problema.
No obstante, para poder construir la TABLA 1.8 se puede usar el Minitab de
acuerdo a las siguientes indicaciones:
Graph Stem-and-leaf
En el recuadro que aparece poner las variables de la columna C1 en la ventanilla de
Stem-and-leaf y en la ventanilla de Increments poner 1. Esto produce los datos
de la TABLA 1.8 mostrada abajo.
TABLA 1.8. Tabla mostrando los resultados de tallo y hoja correspondientes a las
observaciones de la TABLA 1.7.
__________________________________________________________________
Stem-and-Leaf Display: Mediciones de 40 objetos
2 1 69
7 2 25669
(25) 3 0011112223334445567778899
8 4 11234577
__________________________________________________________________
1-28
Dr. Hctor Quevedo Uras
Las tablas de las distribuciones de tallo y hoja se pueden usar para estimar los
intervalos de clase cuando se hacen distribuciones de frecuencia. El procedimiento
es como sigue:
1. Primero se saca el rango de los datos. Por ejemplo, de la TABLA 1.7 el valor
mximo es 4.7 y el valor mnimo es 1.6, o sea: rango = 4.7 1.6 = 3.1.
2. Enseguida se estima el ancho del intervalo dividiendo el rango entre el nmero
de tallos (7 en este caso), es decir, 3.1 / 7 = .4.
3. Ahora, para estimar el primer intervalo de clase empezamos con 1.5 y le
1-29
Dr. Hctor Quevedo Uras
sumamos .4 para dar 1.9. El siguiente intervalo de clase es 2.0 ms .4 para dar 2.4.
El siguiente intervalo de clase es 2.5 ms .4 para dar 2.9 y as sucesivamente, como
se muestra en la TABLA 1.10 de abajo.
TABLA 1.10. Tabla mostrando los intervalos de clase, el punto medio, la
frecuencia, la frecuencia relativa y la frecuencia relativa acumulada.
Intervalo de Punto Frecuencia Frecuencia Frecuencia relativa
clase medio (f) relativa (f.r.) acumulada (f.r.a.)
1.5 1.9 1.7 2 0.050 0.050
2.0 2.4 2.2 1 0.025 0.075
2.5 2.9 2.7 4 0.100 0.175
3.0 3.4 3.2 15 0.375 0.550
3.5 3.9 3.7 10 0.250 0.800
4.0 4.4 4.2 5 0.125 0.925
4.5 4.9 4.7 3 0.075 1.000
Por otro lado, con los datos de la TABLA 1.10 se pueden hacer histogramas
de frecuencia relativa, con curvas normales sobrepuestas y curvas de frecuencia
relativa acumulada para calcular medidas de localizacin como cuartiles o
percentiles. Por ejemplo, los cuartiles dividen el conjunto de datos en cuatro partes
iguales. Siendo as, el primer cuartil o .25 fractil (Q1) separa la cuarta parte inferior
de las tres cuartas partes superiores, esto es, el 25% de las mediciones de abajo. El
segundo cuartil o .50 fractil (Q2) es idntico a la mediana o sea que la mitad de las
observaciones estn debajo de este valor. Las observaciones arriba del tercer cuartil
o .75 fractil (Q3) son la cuarta parte superior del conjunto de datos. Finalmente, los
1-30
Dr. Hctor Quevedo Uras
__________________________________________________________________
1-31
Dr. Hctor Quevedo Uras
10
Frequency
6
0
1.6 2.4 3.2 4.0 4.8
Mediciones de 40 objetos
1-32
Dr. Hctor Quevedo Uras
0.8 0.8
Distribucion de f.r.a.
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
7 19 12 5 17 29 8 19 4 27 30 1 4 10 21
__________________________________________________________________
Solucin:
1-33
Dr. Hctor Quevedo Uras
1-34
Dr. Hctor Quevedo Uras
Ejercicios Captulo 1
1.1. Calcular el promedio, la varianza y la desviacin estndar de las observaciones de
la muestra: 12, 6, 7, 3, 15, 10, 18, 5. (9.5, 27.1, 5.2)
1.2. Encontrar la desviacin estndar y el promedio de los valores: 3, 6, 2, 1, 7, 5. De
acuerdo a la relacin de los valores obtenidos del promedio y la desviacin estndar o
varianza. Qu conclusiones se pueden sacar?
1.3. Escribir los siguientes trminos usando anotacin de sumatoria.
10
2 2 2 2
(a) X 1 +X 2 +X 3 + ...+ X 10 ( Xi)
x=0
5
(b) (X1 + Y1) + (X2 + Y2) + .... + (X5 + Y5) ( Xi+Yi)
x=0
1-35
Dr. Hctor Quevedo Uras
4
(b) (y1 - 3) 2
j=1
5
(c) fkxk
k=1
Frecuencia f| 4 9 16 28 45 66 85 72 54 38 27 18 115
_______________________________________________________________________________
1-36
Dr. Hctor Quevedo Uras
1.16. Los siguientes datos estn relacionados con las temperaturas, en oC, de 10
regiones de Mxico. La tabla de abajo muestra esta situacin:
Tabla mostrando los datos del problema. (Elaboracin propia)
__________________________________________________________________
Temp. Frecuencia Frecuencia Frecuencia Frecuencia relativa
o
( C) acumulada relativa (%) acumulada
__________________________________________________________________
20 3 3 30% 30%
21
22 2 9 20% 90%
23 1
Total 10
1-37
Dr. Hctor Quevedo Uras
1-38
Dr. Hctor Quevedo Uras
50.00 - 59.99 8
60.00 - 69.99 10
70.00 - 79.99 16
80.00 - 89.99 14
90.00 - 99.99 10
100.00 - 109.99 5
10.00 - 119.99 2
1.19. Una organizacin caritativa que ayuda a damnificados por huracanes ha hecho
una lista de donaciones recibidas durante el presente ao, en miles de pesos. El
propsito de este ejemplo es el de hacer una tabla de distribucin de frecuencia
encontrando los intervalos de clase ms apropiados usando la tcnica de diagramas de
tallo y hoja. La tabla de abajo muestra los datos. Para esto hacer lo siguiente:
(a) Calcular el promedio y la mediana. (139, 135)
(b) Hacer una tabla de distribucin de frecuencia usando un diagrama de tallo y hoja.
Encontrar los puntos intermedios, la frecuencia, la f. r. y la frecuencia relativa
acumulada y construir un histograma y una grfica de f. r. a. contra valores de X.
Tabla mostrando los datos del problema (Elaboracin propia).
___________________________________________________________________
253.0 173.4 117.0 191.2 151.4
182.0 132.0 162.0 212.9 155.9
221.0 158.0 135.0 124.4 68.9
89.7 95.6 84.1 135.1 123.2
101.0 126.5 142.8 20.2 119.0
___________________________________________________________________
1-39
Dr. Hctor Quevedo Uras
60 - 62 61 5 5 x 61 = 305
63 - 65 64 18 64 x 18 = 1152
66 - 68 67 42 67 x 42 = 2814
69 - 71 70 27 70 x 27 = 1890
72 - 74 73 8 73 x 8 = 584
__________________________________________________________________
(a) Calcular el promedio aritmtico. Sugerencia: usar la funcin del promedio igual a
f X/f
1-40
Dr. Hctor Quevedo Uras
1-41
Dr. Hctor Quevedo Uras
(h) Encontrar el % de los tubos cuyas vidas sean < 600 horas. (29.5%)
(i) Graficar los datos en papel de probabilidad y leer el promedio aritmtico y la
desviacin estndar de la grfica.
(j) Hacer una grafica de frecuencia relativa acumulada versus puntos medios y
calcular los percentiles Q1, Q2 y Q3.
Tabla mostrando los datos del problema. (Elaboracin propia)
___________________________________________________________________
Vida de los No. de (f) f.r. f.a. f.r.a. Punto
tubos tubos medio
___________________________________________________________________
300 - 399 14
400 - 499 46
500 - 599 58
600 - 699 76
700 - 799 68
800 - 899 62
900 - 999 48
1000 - 1099 22
1100 - 1199 6
__________________________________________________________________
1-42
Dr. Hctor Quevedo Uras
Para los problemas de abajo encontrar las siguientes sumatorias usando la tabla de
arriba.
1-43
Dr. Hctor Quevedo Uras
2 1
(b) p(x) p(x)
x=0 x=0
1
(c) p(x) (0.9928)
x=0
3
(c) p(x) (1.000)
x=0
1-44
Dr. Hctor Quevedo Uras
1-45
Dr. Hctor Quevedo Uras
CAPITULO 2
Probabilidad
p = Pr{E} = h / n (2-0a.)
Donde:
Por lo tanto, p + q = 1
Ejemplo #1. Si una moneda tiene dos caras denotadas por guilas o sellos, calcular la
probabilidad de que salga un sello.
Solucin:
Usando la funcin (2-0) y dejando que A sea el evento sello y B el evento guila,
entonces, la probabilidad de sellos es:
P(A) = 1 / (1 + 1) = 0.5.
2-2
Dr. Hctor Quevedo Uras
2-3
Dr. Hctor Quevedo Uras
1. Para cualquier evento A, P(A) 0. Adems, la probabilidad no puede ser mayor que
1, ni tampoco negativa.
2. La probabilidad de un espacio muestral es: P(S) = 1
3. Si A1, A2,...., Ak es una coleccin finita de eventos mutuos excluyentes (que no
puede ocurrir a la misma vez), entonces:
k
P(A1 A2 .... Ak) = P(Ai) (2-3)
i=1
Si A1, A2, A3,... es una coleccin infinita de eventos mutuos excluyentes, entonces:
k
P(A1 A2 A3 ...) = P(Ai) (2-4)
i=1
Ejemplo #6. Este es un ejemplo adaptado del libro de Richard A. Jonson, intitulado
Probabilidad y Estadstica para Ingenieros de Miller y Freund (1994). Las
probabilidades de que un consumidor que prueba el servicio de un nuevo dispositivo
anticontaminante para autos, lo clasifique como muy deficiente, deficiente, suficiente,
bueno, muy bueno o excelente son: 0.07, 0.12, 0.17, 0.21, y 0.011. Cules son las
probabilidades de que las clasificaciones del dispositivo sean?:
(a) Muy deficientes?
(b) Deficientes?
(c) Suficientes o buenas?
(d) Buenos, muy buenos o excelentes?
Solucin:
Puesto que las posibilidades son mutuamente excluyentes (que no pueden ocurrir a la
vez), la sustitucin directa de cada una de las cinco clasificaciones, en la funcin (2-3)
da como resultado:
(a)-(c) es: 0.07 + 0.12 + 0.17 + 0.32 = 0.68
2-6
Dr. Hctor Quevedo Uras
Ejemplo #14. Si M = {x|3 < x < 9} y N = {y|5 < y < 12}, entonces, encontrar la unin
de M N. (Walpole 1993, p. 14)
Solucin:
M N = {z}3 < z < 12}
Interseccin de los eventos. La interseccin de dos eventos A y B, se denota por el
smbolo A B, que se lee "A y B". La interseccin A B es el grupo de puntos en el
evento del espacio A y en el evento del espacio B. Por lo tanto, el evento A B
ocurre, solamente, si ambos eventos A y B ocurren. Aqu, la palabra clave y se
refiere al evento conteniendo todos los elementos que son comunes o que estn en
ambos, A y B.
Ejemplo #15. Si S = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, A = {0, 2, 4, 6, 8}, B = {1, 3, 5, 7, 9},
C = {2, 3, 4, 5} y D = {1, 6, 7}, encontrar:
(a) A B.
(b) A C
Solucin:
(a) Debido a que en A B no hay ningn elemento en comn, por lo tanto, A B =
y no pueden ocurrir a la misma vez.
(b) Debido a que, solamente el 2 y el 4 son comunes en ambos eventos A y C, por lo
tanto, A C = {2, 4}
Ejemplo #16. Si dejamos que M = {a, e, i, o, u} y N = {r, s, t}, por lo tanto, M N =
, lo cual dice que M y N no tienen elementos en comn y que no pueden ocurrir a la
misma vez.
Complemento.- El complemento de un evento A, denotado por A', es el conjunto de
todos los resultados en el espacio muestral S, que no estn contenidos en A.
Ejemplo #17. Si A = {0, 1, 2, 3, 4}, B = {3, 4, 5, 6} y C = {1, 3, 5}, entonces,
2-10
Dr. Hctor Quevedo Uras
encontrar:
(a) A B
(b) A C
(c) A B
(d) A C
(e) A'
(f) {A C}'
Solucin:
(a) A B = {0, 1, 2, 3, 4, 5, 6} = S
(b) A C = {0, 1, 2, 3, 4, 5}
(c) A B = {3,4}
(d) A C = {1,3}
(e) A' = {5,6}
(f) (A C)' = {6}
2-11
Dr. Hctor Quevedo Uras
Figura 2.0. Diagrama mostrando los espacios muestrales y los eventos. (Johnson,
1997).
Ejemplo #18. Refirindose al problema anterior representar con smbolos de Venn las
siguientes regiones:
(a) 4, 6, 7
(b) 1,4
(c) 1, 2, 5, 7
(d) 1, 2
(e) 1, 3, 4
Solucin:
(a) (A U C)
(b) (A C)
(c) (A U B)
(d) (A B)
(e) (A U B) C)
Ejemplo #19. Si S = {libro, catalizador, cigarrillo, qumico, ingeniero, remache} y, si
dejamos que A = {catalizador, remache, libro, cigarrillo}, entonces A' = {qumico,
2-12
Dr. Hctor Quevedo Uras
ingeniero}
Ejemplo #20. El espacio muestral de un experimento aleatorio se da como S = {AA,
AN, NA, NN}. Si E1 = {AA, AN, NA} y E2 = {AN, NA, NN}, entonces, encontrar:
(a) E1 E2
(b) E1 E2
(c) E1'
(d) E2'
Solucin:
(a) E1 E2 = {AA, AN, NA, NN}
(b) E1 E2 = {AN, NA}
(c) E1' = {NN}
(d) E2' = {AA}
Eventos mutuos excluyentes.- Dos o ms eventos se dice que son mutuos excluyentes
o desunidos, cuando no hay elementos comunes entre si. Para esto se usa la
simbologa de intersecciones, es decir, A B = , esto dice que A y B no tienen
elementos en comn. Esto nos dice qu, cuando uno de los resultados ocurre, los otros
no pueden ocurrir al mismo tiempo. Por ejemplo, cuando se lanza un dado, la sacada
de un 1 y un 2 son eventos mutuos excluyentes, debido a que, si el sale el 1, no puede
salir el 2, a la misma vez. Igualmente, con los naipes si sale un rey no puede salir un as
o cualquier otra carta del mazo de cartas.
Si E1 y E2 son eventos mutuos excluyentes, entonces:
Pr{E1E2} = 0.
Si E1 + E2 denotan los eventos de que, ya sea que E1 o E2 o ambos ocurran, entonces:
Pr{E1 + E2} = Pr{E1} + Pr{E2} - Pr{E1E2}
En general para eventos mutuos excluyentes:
2-13
Dr. Hctor Quevedo Uras
vez y viceversa. Por lo tanto, los dos eventos A y B son mutuos excluyentes.
Probabilidad condicional.- Se define como la probabilidad de que un evento A ocurra,
cuando se sabe que el evento B ha ocurrido y se denota como P (A|B). Tambin la
probabilidad de que un evento B ocurra, cuando se sabe que el evento A ha ocurrido,
se denota por P (B|A). Las funciones usadas para tales fines son:
P (A B) P(A B)
P (B|A) = ; P (A|B) = (2-6)
P(A) P(B)
Ejemplo #24. Si P(D) = 0.83, P(A) = 0.82 y P(D A) = 0.78, encontrar los siguientes
enunciados:
(a) P(A|D)
(b) P(D|A)
Solucin:
(a) P(A|D) = P(D A)/P(D)
= 0.78/0.83
= 0.94
(b) P(D|A) = P(D A)/P(A)
= 0.78/0.82
= 0.95
Ejemplo #25. Los resultados obtenidos de 266 muestras de aire se clasifican de
acuerdo a la presencia de dos molculas raras. Sean A: el evento formado por todas las
muestras de aire en la que se encuentra la molcula rara 1, y B: el evento formado por
todas las muestras de aire donde est presente la molcula rara 2. Si se calcul que la
probabilidad P(A B) = 12/66 y P(A) = 36/266, entonces, calcular la probabilidad del
evento formado por todas las muestras de aire con la molcula 2, dado el evento
2-15
Dr. Hctor Quevedo Uras
formado por todas las muestras de aire con la molcula 1. (Montgomery et al. 1996)
Solucin:
P(B|A) = P(A B) / P(A)
= (12/266) / (36/266)
= 12/36
Ejemplo #26. Refirindose al problema anterior, encontrar P(A|B), si P(B) es igual a
30/266.
Solucin:
P(A|B) = P(A B) / P(B) = 12/266/(30/266) = 12/30
Eventos independientes y dependientes.- En este caso, sin embargo, cuando hablamos
de probabilidad condicional se incluyen lo que se llaman eventos independientes y
eventos dependientes. Por ejemplo, si la ocurrencia de un evento, no cambia la
probabilidad de la ocurrencia del otro evento, entonces, se dice que los dos eventos
son independientes. Sin embargo, si cualquiera de estas condiciones no se satisfacen,
los dos eventos se dicen que son dependientes, es decir, P(A|B) P(A).
En el caso especial de que A y B sean independientes, es decir, de manera que,
P(A|B) = P(A), esto conduce a la regla especial de multiplicacin:
P(A B) = P(A) P(B) (2-7)
Ejemplo #27. Encontrar la probabilidad de sacar dos caras en dos lanzamientos de una
moneda honesta.
Solucin:
Puesto que la probabilidad de las caras es de 0.5 por cada lanzamiento y los dos
lanzamientos son independientes, la probabilidad es (1/2)(1/2) =
Ejemplo #28. Se sacan dos cartas, aleatoriamente, de un mazo de 52 naipes. Qu
probabilidad hay de obtener dos ases si?
2-16
Dr. Hctor Quevedo Uras
Las reglas de las tres operaciones bsicas del lgebra de conjuntos para formar
uniones, intersecciones y complementos de eventos se describen en la TABLA 2.1.
TABLA 2.1. Tabla mostrando las leyes del lgebra de conjuntos. (Elaboracin
propia)
___________________________________________________________________
Ley asociativa: (A B) C = A (B C)
(A B) C = A (B (B C)
Ley conmutativa: AB=BA
AB=BA
Ley distributiva: A (B C) = (A B) (A C)
A (B C) = (A B) (A C)
Leyes de Morgan: (A B)' = A' B'
(A B)' = A' B'
Leyes complementarias: A A' = S
A A' =
(A')' = A
S' = , ' = S
Leyes idnticas: A=A
AS=A
AS=S
A=
Leyes con la misma potencia: AA=A
AA=A
__________________________________________________________________
2-19
Dr. Hctor Quevedo Uras
Figura 2.2. Los esquemas de abajo muestran algunos diagramas de Venn. (Elaboracin
propia)
Tcnicas de conteo
Numerosas reglas de conteo han sido usadas para contar el nmero de puntos en
muestreos. Cuando los diversos resultados de un experimento son igualmente
probables, la tarea de calcular probabilidades se reduce a contar. Estas tcnicas de
conteo son tiles para contar el nmero de eventos que componen el numerador y/o el
denominador de una probabilidad.
Ejemplos de tcnicas de conteo son:
1. La regla del producto para pares ordenados
2. La regla del producto ms general
2-20
Dr. Hctor Quevedo Uras
3. Factoriales
4. Uso de diagramas de rbol
5. Permutaciones
6. Combinaciones
La regla del producto para pares ordenados
La forma ms bsica de conteo es la regla del producto mn. Por ejemplo, si el primer
elemento u objeto de un par ordenado se puede seleccionar en n1 formas, y por cada
una de estas n1 formas se puede seleccionar un segundo elemento del par en n2 formas,
entonces, siendo as, esto es una regla del producto.
Ejemplo #31. Cuntos puntos muestrales hay en un espacio muestral S, cuando un
par de dados se lanzan una vez?
Solucin:
El primer dado puede caer en n1 = 6 maneras. Para cada una de estas 6 maneras, el
segundo dado puede tambin caer en n2 maneras. Por lo tanto, el par de dados pueden
caer en n1n2 = (6) (6) = 36. El espacio muestral es:
S = {1-1, 1-2, 1-3, 1-4, 1-5, 1-6, 2-1, 2-2, 2-3, 2-4, 2-5, 2-6, 3-1, 3-2, 3-3, 3-4, 3-5, 3-
6, 4-1, 4-2, 4-3, 4-4, 4-5, 4-6, 5-1, 5-2, 5-3, 5-4, 5-5, 5-6, 6-1, 6-2, 6-3, 6-4, 6-5, 6-6}
Ejemplo #32. En un estudio mdico los pacientes se clasifican en ocho maneras de
acuerdo a que tengan tipo de sangre, es decir, AB+, AB-, A+, A-, B+. B- o O+, O- y
tambin de acuerdo a, aqullos que tengan presin alta, baja o normal. Encontrar el
nmero de maneras en las cuales un paciente se pueda clasificar.
Solucin:
n1 = 8 tipos de sangre y n2 = 3 presiones arteriales. Por lo tanto, n1 n2 = (8) (3) = 24
maneras.
2-21
Dr. Hctor Quevedo Uras
enfermo, esto no quiere decir qu, solamente, ese rgano en particular est enfermo,
sino que toda la qumica del cuerpo est alterada, como resultado de vida antinatural.
Este razonamiento est relacionado con la tesis de Hipcrates conspiratio una).
Solucin:
n1n2n3 = (4)(3)(2) = 24
Regla factorial
Dado un ntegro positivo n, el producto de todos los nmeros enteros desde n hasta 1
se llama factorial n y se escribe n!. En general, n! = n(n 1)(n 2)(n 3).1. Por
definicin 0! = 1. Aqu ntese que 10! = 109!; 5! = 44!, y n! = n(n 1)!
Ms adelante, cuando se discuta el tema de permutaciones se ver que, la
diferencia entre la regla factorial y la regla de permutaciones, es la siguiente: la regla
factorial dice cuntos arreglos son posibles, cuando se usan todos los diferentes
objetos de n. Sin embargo, cuando se habla de permutaciones, se seleccionan
solamente algunos de los objetos n, no todos, como en el caso de la regla factorial.
Ejemplo #35. Calcular los siguientes factoriales:
(a) 10!
(b) 5!
(c) 9!/0!
Solucin:
(a) 10! = 3,628,800
(b) 5! = 120
(c) 9!/0! = 362,880/1 = 362,880
Ejemplo #36. Un candidato presidencial planea visitar cada uno de 28 estados de un
pas. Cuntas rutas diferentes son posibles?
Solucin:
2-23
Dr. Hctor Quevedo Uras
Las capitales de los diferentes 28 estados se pueden arreglar en 28! maneras, de tal
forma el nmero de diferentes rutas es 28! = 3.049x1029.
Ejemplo #37. En la facultad de ingeniera, en cierta oficina, los escritorios de 4
becarias se ponen en lnea contra una pared. Cada becaria se puede sentar en cualquier
escritorio. Cuntos arreglos para sentar a las becarias son posibles?
Solucin:
Usando n! = 4! = (4)(3)(2)(1) = 24
Diagramas de rbol
En las reglas de producto o regla de multiplicacin se puede usar una configuracin
llamada diagrama de rbol, para representar esquemticamente, todas las posibilidades
y calcular cualquier probabilidad en los resultados obtenidos del diagrama de rbol.
De esta manera, los espacios muestrales pueden describirse grficamente en trminos
de un diagrama de rbol.
Ejemplo #38. Supngase que una computadora pueda seleccionar, aleatoriamente, uno
de dos factores, Rh (positivo y negativo) y uno de tres tipos de sangre. Calcular la
probabilidad de sacar un factor Rh positivo con tipo de sangre A.
Solucin:
Usando la regla de multiplicacin n1 n2 = (2) (3) = 6 se hace este clculo. Sin embargo,
aqu es difcil visualizar las combinaciones calculadas en la probabilidad. No obstante,
el uso de un diagrama de rbol simplifica esta tarea.
Ejemplo #39. Con relacin al problema anterior hacer un diagrama de rbol para
relacionar el factor Rh y el tipo de sangre.
Solucin:
2-24
Dr. Hctor Quevedo Uras
A -A
- O -O
B -B
Del diagrama de rbol de arriba podemos ver que el espacio muestral es:
S = {+A, +O, +B, -A, -O, -B)
Examinando esta situacin vemos qu, una sola rama corresponde a: +A. Por lo tanto,
la probabilidad de sacar este arreglo es de 1/6.
Ejemplo #40. Supngase que se quiera encontrar la probabilidad de un infante, que sea
una hembra con ojos azules. Asumir que la probabilidad de varones y hembras es
igual y que puedan salir con colores de ojos cafs, verdes, azules o castaos.
Solucin:
Usando la regla de productos da: n1 n2 = (2) (4) = 8. La probabilidad de una hembra
con ojos azules es 1/8.
Pero, haciendo un diagrama de rbol simplificamos el clculo de la probabilidad de
sacar una hembra con ojos azules.
2-25
Dr. Hctor Quevedo Uras
2-26
Dr. Hctor Quevedo Uras
Figura 2.5. Diagrama de rbol del experimento de lanzar las tres monedas
simultneamente, donde S = soles y A = guilas. (Elaboracin propia)
Con este diagrama de rbol vemos que hay 8 resultados al lanzar una moneda tres
veces consecutivas o tres monedas simultneamente. El espacio muestral es:
S = {(SSS), (SSA), (SAS), (SAA), (ASS), (ASA), (AAS), (AAA)}
(b) La probabilidad de caigan exactamente 3 soles es:
P(soles = 3) = 1/8
(c) La probabilidad de que caigan cuando menos 2 soles es:
P(soles 2) = 4/8 = 1/2
(d) La probabilidad de caigan a lo ms dos guilas es:
P(guilas 2) = resolverse por el lector
(e) La probabilidad de todo el conjunto muestral es: P(S) = 1 o sea:
= P(SSS)+P(SSA)+P(SAS)+P(SAA)+P(ASS)+P(ASA)+P(ASS)+P(AAA)
= 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 = 1
2-27
Dr. Hctor Quevedo Uras
Solucin:
Aqu, n = 6 y r = 4, es decir: 6P4 = 360
Teorema 3. El nmero de diferentes permutaciones de n objetos, de los cuales n1 son
de una clase, n2 son de una segunda clase,...nk son de una k-sima clase se da como:
n! / (n1! n2!..nk!) (2-10)
Donde: n! es el total de los objetos
Ejemplo #51. De cuntas maneras pueden arreglarse en un cordn elctrico 3 focos
rojos, 4 amarillos y 2 azules en 9 portalmparas?
Solucin:
Usando la regla de particin n!/(n1!n2!..nk!)
Donde, n! = 9, n1 = 3, n2 = 4 y n3 = 2, da:
9! / (3! 4! 2!) = 1260
Ejemplo #52. Un colegio juega 12 juegos durante la temporada. De cuantas maneras
puede el equipo terminar la temporada con 7 juegos ganados, 3 perdidos y 2 empates?
Solucin:
Usando la funcin (2-9) con n! = 12, n1 = 7, n2 = 3 y n3 = 2 y sustituyendo da:
12!/[(7!)(3!)(2!) = 7920
Otra forma de ver las permutaciones es cuando estamos interesados en el
nmero de maneras de partir un conjunto de n objetos en r subconjuntos llamadas
celdas.
Teorema 4. El nmero de maneras de partir un conjunto de n objetos en r celdas con n1
elementos en la primera celda, n2 elementos en la segunda y, as sucesivamente, es:
2-31
Dr. Hctor Quevedo Uras
n
= C = n! / n1! n2!...nr! (2-11)
n n1,n2..nr
n1,n2..nr
Donde:
n1 + n2 + nr = n
Ejemplo #53. En cuntas maneras pueden 7 cientficos ser asignados a un cuarto triple
y a 2 cuartos dobles en un hotel.
Solucin:
7
= 7! / (3!2!2!) = 210
3, 2 , 2
2-35
Dr. Hctor Quevedo Uras
4/52 y P(B) = 13/52. Esto se debe a que hay 4 ases y 13 cartas de corazones.
Ejemplo #2. Considerar el espacio muestral S = {A, B, C, D), donde P(A) = P(D) = .3
y P(B) = P(C) = .2. (Keller et al. 1990)
(a) Siendo as, definir los eventos:
1 = {A, B}
2 = {B, C}
3 = {C, D}
(b) Cul de los siguientes pares de eventos son independientes o dependientes?
(b) 1 y 2
(c) 2 y 3
(d) 1 y 3
Solucin:
(a) 1 = {A, B} = .3, .2
2 = {B, C} = .2, .2
3 = {C, D} = .2, .3
(b) Los eventos 1 y 2 son independientes
(c) Los eventos 2 y 3 son independientes
(d) Los eventos 1 y 3 son dependientes
2-36
Dr. Hctor Quevedo Uras
probabilidad de sacar la suma de 7 es de 6, es decir, (2+5, 5+2, 3+4, 4+3, 1+6, 6+1).
Usando la regla multiplicativa para eventos independientes da:
P(A B) = P(A) P(B)
= (6/36)(6/36) = 1/36
Ejemplo #65. Cuntos puntos muestrales hay en un espacio muestral, cuando un par
de dados se lanzan una vez?
Solucin:
El primer dado puede caer en n1 = 6 maneras. Para cada una de estas 6 maneras, el
segundo dado puede caer en n2 maneras. Por lo tanto:
n1 n2 = (6)(6) = 36 maneras posibles
El espacio muestral es:
S = {1-1, 1-2, 1-3, 1-4, 1-5, 1-6, 2-1, 2-2, 2-3, 2-4, 2-5, 2-6, 3-1, 3-2, 3-3, 3-4, 3-5, 3-6,
4-1, 4-2, 4-3, 4-4, 4-5, 4-6, 5-1, 5-2, 5-3, 5-4, 5-5, 5-6, 6-1, 6-2, 6-3, 6-4, 6-5, 6-6}
Regla aditiva para eventos mutuos excluyentes y eventos no mutuos excluyentes
En muchas aplicaciones de la teora de probabilidad, estamos interesados en combinar
probabilidades de eventos que estn relacionados de alguna manera. En este caso se usa
la regla aditiva. As, la regla aditiva se usa para computar la probabilidad de la unin de
dos eventos. Esta regla aplica para eventos no mutuos excluyentes y, tambin, para
eventos mutuos excluyentes.
Por ejemplo si A y B son eventos mutuos excluyentes el modelo aditivo es:
P(A B) = P(A) + P(B) (2-23)
Que tambin se puede escribir como:
P(A o B) = P(A) + P(B) (2-23a)
Nota. El smbolo P(A o B) se refiere a la probabilidad de cualquiera de los eventos A o
B ocurran o, bien, que ambos ocurran.
2-40
Dr. Hctor Quevedo Uras
Dejar que A = 2/3 sea el evento de pasar matemticas y B = 4/9 el evento de pasar
ingls y P(A y B) = 1/4 el evento de pasar matemticas e ingls, entonces por la regla
aditiva:
P(A o B) = P(A) + P(B) - P(A y B)
P(A B) = P(A) + P(B) - P(A B)
P(2/3 o 1/4) = P(2/3) + P(1/4) - P(2/3 y 1/4)
= 2/3 + 4/9 - 1/4 = 31/36
Ejemplo #68. Cul es la probabilidad de que una carta seleccionada, aleatoriamente, de
un mazo de 52 cartas sea un rey o un corazn?
Solucin:
Debido a que hay un traslapado, se usa la regla aditiva para eventos no mutuos
excluyentes P(A o B) = P(A) + P(B) - P(A y B). Siendo as, dejemos que A = un rey
cualquiera y B = precisamente un corazn cualquiera. Por lo tanto, P(A) = 4/52, P(B) =
13/52, P(A y B) rey o corazones = 1/52. Aqu, es lgico que la probabilidad conjunta
(Una probabilidad que mide la verisimilitud de que puedan ocurrir dos a ms eventos a
la misma vez), de un rey y un corazn deba de restarse una vez. De no ser as se
incluira dos veces en encontrar la probabilidad de que una carta seleccionada
aleatoriamente fuera, ya sea un rey o un corazn. Existe un traslapado de resultados, lo
cual quiere decir que existe la probabilidad de que el rey (A) y un corazn (B) ocurran
al mismo tiempo. Por lo tanto:
P(A o B) = P(A) + P(B) - P(A y B)
= 4/52 + 13/52 1/52 = 16/52
Ejemplo #69. Este es un problema sacado del libro Statistical Analysis for Decisin
Making de Morris Hamburg (1989), el cual est relacionado con la probabilidad de
obtener un 6 en el primero o segundo lanzamiento de un dado o en ambos lanzamientos.
2-42
Dr. Hctor Quevedo Uras
Esto es lo mismo que calcular la probabilidad de obtener un 6, cuando menos una vez
en dos lanzamientos de un dado.
Solucin:
Dejar que A1 denote la salida de un 6 en el primer lanzamiento del dado y A2 represente
la salida de un 6 en el segundo lanzamiento. Queremos encontrar el valor de P(A1 o A2).
Para esto analicemos los resultados posibles del primero y segundo lanzamiento.
2-43
Dr. Hctor Quevedo Uras
Figura 2.6. Las Figuras (a), (b) y (c) muestran el uso de diagramas de Venn para la regla
aditiva, para eventos mutuos excluyentes y no mutuos excluyentes. (Elaboracin propia)
Entonces, por lo tanto, debido a que ambos el as y el rey no pueden ser sacados de un
solo tiro, por lo tanto, son eventos mutuos excluyentes y se usa la funcin (2-23).
Ejemplo #72. Si E1 es el evento de sacar un as y E2 es el evento de sacar una espada,
entonces, E1 y E2 no son eventos mutuos excluyentes debido a que el as de espadas
puede ser sacado. Siendo as, se usa la funcin (2-25) para eventos no mutuos
excluyentes. Por lo tanto, la probabilidad de sacar ya sea un as o una espada o ambos es:
Pr{E1 + E2} = Pr{E1} + Pr{E2} - Pr{E1E2} = 4/52 + 13/52 - 1/52 = 4/13
Ejemplo #73. Cual es la probabilidad de obtener un seis en el primero o segundo
lanzamiento de un dado o, en ambos lanzamientos de un dado honesto?
Solucin:
Aqu, usamos la regla aditiva para eventos no mutuos excluyentes, es decir, la funcin
(2-25). Para esto dejemos que A1 denote el evento de un seis en el primer lanzamiento y
A2 denote el evento de un seis en el segundo lanzamiento. Queremos encontrar la
probabilidad de P(A1 o A2), lo cual dice que estamos buscando que el nmero seis
aparezca, ya sea en el primer lanzamiento o en el segundo lanzamiento o en ambos
lanzamientos. Entonces:
P(A1) = 1/6, P(A2) = 1/6 y P(A1 y PA2) = 1/36
Sustituyendo todos estos valores en la funcin (2-27) da:
P(A B) = P(A) + P(B) P(A B)
P(A1 A2) = 1/6 + 1/6 1/36 = 11/36
Ejemplo #74. Cul es la probabilidad de que una carta seleccionada, aleatoriamente, de
un mazo de 52 cartas sea un as o un corazn?
Solucin:
Aqu, nuevamente, se usa la regla aditiva para eventos no mutuos excluyentes. Para esto
dejemos que A = un as cualquiera y B = precisamente un corazn cualquiera. Usando el
2-45
Dr. Hctor Quevedo Uras
mazo de 52 cartas (que contiene cuatro 2s, cuatro 3s, cuatro 4s, , cuatro 10s,
cuatro sotas, cuatro reinas, cuatro reyes y cuatro ases, con sus correspondientes figuras
de trboles, corazones, espadas y diamantes), por lo tanto, para un as cualquiera, P(A) =
4/52 , para un corazn cualquiera, P(B) = 13/52 y, para ases o corazones, P(A y B)
igual a 1/52. Aqu, nuevamente, como en el caso del ejemplo #68 es lgico asumir qu,
la probabilidad conjunta (una probabilidad que mide la probabilidad de que puedan
ocurrir dos o ms eventos a la misma vez), de un as y un corazn deba restarse una vez.
De no ser as, se incluira dos veces en encontrar la probabilidad de que una carta
seleccionada al azar fuera, ya sea un as o un corazn. Existe un sobrepuesto de
resultados, lo cual dice que existe la probabilidad de que el as (A) y un corazn (B)
salgan a la misma vez. Por lo tanto:
P(as o corazn) = P(as) + P(corazn) P(as y corazn)
= 4/52 + 13/52 1/52
= 16/52
Ejemplo #75. En este ejemplo, para ilustrar la ley aditiva de probabilidad, en la cual
existen traslapados, se puede hacer usando diagramas de Venn. Para esto, se hace el
siguiente experimento de lanzar dos monedas. Siendo as, estimar la probabilidad de
sacar, cuando menos una cara, ya sea en el primer lanzamiento o en el segundo
lanzamiento (Smith, 1985).
Solucin:
Primeramente, enlistar los cuatro posibles resultados poniendo H = caras y T = a soles,
es decir, HT, HH, TH y TT. Aqu, para evitar un traslapado, se usa la regla aditiva para
eventos no mutuos excluyentes. El diagrama de Venn de abajo ilustra claramente, el
traslapado que pudiera ocurrir, si se sumara la probabilidad de una cara en el primer
lanzamiento, ms la probabilidad de una cara en el segundo lanzamiento que dara +
2-46
Dr. Hctor Quevedo Uras
2-47
Dr. Hctor Quevedo Uras
= (2/52)(8/51)(12/50)
= 8/5,525
Ejemplo #77. Hacer el mismo ejemplo #1 de arriba pero, en esta ocasin, con reemplazo
de cartas.
Solucin:
Al haber reemplazo de cartas, el problema se reduce a la regla multiplicativa para
eventos independientes. Los valores de las variables son:
P(A1) = 2/52; P(A2) = 8/52; y P(A3) = 12/52
Enseguida, substituyendo los valores en la expresin de abajo da:
P(A1 A2 A3) = P(A1)P(A2)P(A3)
= (2/52)(12/52)(12/52)
= 0.002
Ejemplo #78. Cuatro cartas se sacan en sucesin. Encontrar la probabilidad de que la
primera carta sea un rey; la segunda sea un 9 de diamantes; la tercera sea, cuando
menos, una sota (asumiendo que el as sea la ltima carta) y, la cuarta carta sea un 7
negro.
Solucin:
Dejemos que A sea cualquiera de los 4 reyes; B sea precisamente un 9 de diamantes; C
sea igual a doce cartas, es decir, desde la sota hasta el as; y D sea cualquiera de los dos
sietes negros.
Siendo as, P(A) = 4/52, P(B) = 1/51, P(C) = 16/50, P(D) = 2/49
Por lo tanto:
P(A B C D) = (4/52)(1/51)(16/50)(2/49)
= 128/6,497,400 = .00002
Ejemplo #79. Dejemos que un par de dados sean lanzados una sola vez. Las tablas de
2-49
Dr. Hctor Quevedo Uras
2-50
Dr. Hctor Quevedo Uras
TABLA 2.3. Resultados cuando se lanzan dos dados una sola vez. (Elaboracin propia)
1 2-1 3
2 2-2 4
3 2-3 5
2 4 2-4 6
5 2-5 7
6 2-6 8
1 3-1 4
2 3-2 5
3 3-3 6
3 4 3-4 7
5 3-5 8
6 3-6 9
1 4-1 5
2 4-2 6
3 4-3 7
4 4 4-4 8
5 4-5 9
6 4-6 10
1 5-1 6
2 5-2 7
3 5-3 8
5 4 5-4 9
5 5-5 10
6 5-6 11
1 6-1 7
2 6-2 8
3 6-3 9
6 4 6-4 10
5 6-5 11
6 6-6 12
2-51
Dr. Hctor Quevedo Uras
Ejercicios Captulo 2
2.1. Si una moneda tiene dos caras denotadas por guilas o soles, cul es la
probabilidad de que salga un sol? (0.5)
2.2. En el caso de un dado que tiene 6 nmeros o caras, entonces, si el dado es honesto,
todas los nmeros del 1 al 6 tienen la misma probabilidad de caer. Entonces, cul es la
probabilidad de sacar un 1?
2.3. En el lanzamiento de un dado, cul es la probabilidad de que se muestren los
nmeros 3 o 4? Cul es la probabilidad de no sacar un 3 o un 4? (2/3)
2.4. Si una persona es seleccionada al azar de un grupo de 20 psiclogos y 30
socilogos, cul es la probabilidad de seleccionar un socilogo?
2.5. Cul de los siguientes no es una probabilidad? 3/7, 2, -1/2, 3/4, 99/101, 0, 1, 5,
1.11, 1.0001, 0.0001, 0.001, 0.9999. (2, 5, 1.11, 1.0001
2.6. La probabilidad de que Juan est vivo en 20 aos es de 0.7 y la probabilidad de que
Pedro est vivo en 20 aos es 0.5. Cul es la probabilidad de que ambos estn vivos en
20 aos?
2.7. Si E1 y E2 sean los eventos de "caras del quinto lanzamiento" y "caras en el sexto
lanzamiento" de una moneda, entonces, los eventos E1 y E2 son eventos independientes.
Cul es la probabilidad de que salgan caras en ambos lanzamientos? (1/4)
2.8. Cul es la probabilidad de sacar cuando menos un 6 en dos lanzamientos de un
dado honesto? Sugerencia: Usar la regla de adicin.
2.9. Asumiendo que los varones y las hembras ocurran igualmente y que el sexo de
cualquier hijo sea independiente de cualquiera de los hermanos o hermanas, encontrar el
espacio muestral y encontrar la probabilidad de que una pareja con 3 hijos tendrn:
(a) exactamente 2 varones. (3/8)
(b) Exactamente 2 hembras. (3/8)
2-52
Dr. Hctor Quevedo Uras
2-54
Dr. Hctor Quevedo Uras
2.21. Supngase que se estudian 10,000 personas de 20 aos y se encuentra que 9961
vivieron 21 aos. Encontrar la probabilidad de que una persona de 20 aos vaya a vivir
21 aos. (.9961)
2.22. Un estudio encuest a un grupo de 100 profesionistas que consista de 40
ingenieros (de los cuales la mitad eran mujeres) y a 60 arquitectos (de los cuales la
mitad eran mujeres). Encontrar la probabilidad de que un profesionista seleccionado
aleatoriamente sea ingeniero o mujer. Asumir una regla aditiva.
2.23. Cul es la probabilidad de que una carta seleccionada al azar de un mazo de 52
naipes sea una reina o un corazn? Asumir una regla aditiva para eventos no mutuos
excluyentes (4/13)
2.24. Cul es la probabilidad de sacar un 6 en el primero o segundo lanzamiento de un
dado honesto o, en ambos lanzamientos?
2.25. Un ingeniero fabricante de motores le preocupan tres tipos de principales defectos.
Por ejemplo, A es el evento en el que el eje del motor es demasiado grande, B el evento
en el que las bobinas son inadecuadas y C el evento en el que las conexiones elctricas
son insatisfactorias. De ser as, expresar verbalmente qu eventos estn representados
por las siguientes regiones del diagrama de Venn. (Johnson, 1997)
2-55
Dr. Hctor Quevedo Uras
(a) Regin 2. (Dado que la regin 2 est en A y B, pero no en C, esto dice que, el eje es
demasiado grande y las bobinas son inadecuadas)
(b) Regin 1 y 3 juntas
(c) Regiones 3, 5, 6 y 8 juntas (Debido a que todas estas regiones estn fuera de la
regin A, esto representa el evento en que el eje es demasiado largo o defectuoso)
2.41. Un estudio de trfico vehicular indica que de 3,756 autos que se acercan a la plaza,
857 entran en el aparcamiento. Cul es la probabilidad de que un auto no entre en el
aparcamiento? (P(857) = 0.23, q = ?)
2.42. En una prueba la primera pregunta es de falso y verdadero y, la segunda pregunta
es de seleccin mltiple con posibles respuestas de a, b, c, d, e. (a) Cuntas secuencias
de posibles respuestas hay en estas dos preguntas? (b) Usar un diagrama de rbol y
enlistar el espacio muestral. (10)
2.43. En el diseo de un sistema de computadora, si un byte se define como una
secuencia de 8 bits y, cada bit debe ser 0 o 1, cuntos bytes diferentes son posibles?
2.44. Explique en sus propias palabras lo que significan los siguientes trminos:
(a) Experimento aleatorio
(b) Espacio muestral
(c) Evento
2.45. Hablando de factoriales, evaluar 50! Sugerencia: usar la aproximacin de Sterling:
n! ~ 2n nn e-n (3.04x1064)
2.46. Se lanza una moneda 3 veces consecutivas. Hacer un diagrama de rbol con los
resultados de soles y guilas y el espacio muestral. Calcular lo siguiente:
(a) Nmero de soles es cuando menos 2.
(b) Segundo lanzamiento son soles.
(c) El nmero de soles es exactamente 2.
(d) Segundo lanzamiento son guilas.
(e) Todos los lanzamientos muestran la misma imagen.
(f) El nmero de soles es menor que 2.
2-59
Dr. Hctor Quevedo Uras
2.77. Supongamos que de todos los individuos que compran una computadora personal,
60% incluyen un programa de procesador de palabras en su compra, 40% incluye un
programa de esparcimiento de hojas (LOTUS) y 30% incluye ambos programas.
(a) Cul es la probabilidad de seleccionar un comprador que incluya un programa de
procesador de palabras, dado que incluya un programa de LOTUS? Usar un diagrama
de Venn. (0.75)
(b) Cul es la probabilidad de que un comprador incluya un programa de LOTUS,
dado que incluya un programa de procesador de palabras?
(0.5) 2.78. Una revista de publicaciones publica tres columnas intituladas Arte (A),
Libros (B), Cinema (C). La seleccin aleatoria de un comprador de revistas, con
respecto a estas tres columnas se da abajo (elaboracin propia):
(b) La probabilidad de leer la revista Arte (A), dado que ley las revistas Libros (B) y
Cinema (C).
(c) La probabilidad de leer la revista Arte (A), dado que haya ledo cuando menos una.
2.79. Supongamos que P(A) = .5, P(B) = .4, P(A B) = .25. Hacer los siguientes
cmputos y usar un diagrama de Venn.
(a) P(B|A) (.5)
(b) P(B|A) (.5)
2-64
Dr. Hctor Quevedo Uras
vicepresidente. (5P2)
(c) Decir la probabilidad de que un comit de 2 personas consistirn de 1 hombre y 1
mujer. ([3C12C1]/5C2)
2.82. Cul es la probabilidad de sacar una flor corrida, es decir, 5 cartas de una sola
denominacin, que no incluyan del 10 al as? Ver Figura 2.6.
2.83. En el juego de pquer de 5 cartas, existen un total de 52 cartas que van desde el 2,
3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, As y cada una de estas cartas, tienen 4 figuras, es decir,
trboles, diamantes, espadas y corazones. Tomando en consideracin esto, Cul es la
probabilidad de sacar una flor imperial, es decir, las cartas 10, J, Q, K, As, de una de las
cuatro figuras, es decir, corazones, diamantes, trboles o espadas? Para esto, ver Figura
2.6. (624/2,598,960)
2.84. Cul es la probabilidad de sacar 4 cartas de la misma clase, es decir, un poker?
Esto es, cuatro 2, cuatro 3, cuatro 4,cuatro J, cuatro K, cuatro As. Para esto ver
Figura 2.6.
2.85. Cul es la probabilidad de sacar una casa llena (full house), es decir, una tercia y
un par? (.00144)
2.86. En el juego de barajas, Cul es la probabilidad de sacar una tercia?
2.87. En el juego de naipes, Cul es la probabilidad de sacar un par de un mazo
ordinario de 52 cartas? Ver Figura 2.6. (0.42)
2.88. En un estudio de higiene industrial y seguridad, un supervisor de un grupo de 20
trabajadores de la industria desea saber la opinin de ellos, (a los que seleccionar
aleatoriamente), sobre cierto reglamento de seguridad relacionado con emisiones de
gases dentro de la fbrica. Si 12 de ellos estn a favor del nuevo reglamento y los otros
8 estn en contra, Qu probabilidad hay de que dos trabajadores seleccionados, por el
supervisor, se manifiesten en contra del nuevo reglamento de seguridad? Sugerencia:
2-66
Dr. Hctor Quevedo Uras
Fuente: http://en.wikipedia.org/wiki/Image:Set_of_playing_cards_52.JPG
2-68
Dr. Hctor Quevedo Uras
CAPITULO 3
Distribuciones Binomial e hipergeomtrica
Aplicaciones generales de la distribucin binomial.- Relacin entre la
distribucin normal y la distribucin binomial.- Relacin entre la distribucin
binomial y la distribucin de Poisson.- La distribucin hipergeomtrica.-
Suposiciones y propiedades de la distribucin hipergeomtrica.-
3-1
Dr. Hctor Quevedo Uras
3-2
Dr. Hctor Quevedo Uras
3-3
Dr. Hctor Quevedo Uras
Figura 3.0. Tringulo de Pascal que se usa para estimar los coeficientes binomiales.
En este tringulo se nota que, el primero y el ltimo nmero de cada rengln es 1.
Adems, cada otro nmero en cada ordenacin puede obtenerse por medio de
sumar los dos nmeros que aparecen directamente arriba. (Elaboracin propia)
3-4
Dr. Hctor Quevedo Uras
3-5
Dr. Hctor Quevedo Uras
3-6
Dr. Hctor Quevedo Uras
3-7
Dr. Hctor Quevedo Uras
3-8
Dr. Hctor Quevedo Uras
3-9
Dr. Hctor Quevedo Uras
= 11/32
Ejemplo #5. En un estudio de toxicologa, la probabilidad de que un enfermo se
recupere de una intoxicacin es de 0.4. Si se sabe que una muestra de 15 personas
se ha intoxicado, calcular las siguientes probabilidades:
(a) La probabilidad de cuando menos 10 personas sobrevivan.
(b) La probabilidad de que de 3 a 8 personas (inclusivamente) intoxicadas
sobrevivan.
(c) La probabilidad de que exactamente 5 personas intoxicadas sobrevivan.
Solucin:
(a) Dejemos que X sea el nmero de intoxicados que sobrevivan. Aqu, el trmino
cuando menos 10 significa que el valor de la variable aleatoria es X 10.
Tambin sabemos que la muestra es n = 15. Aqu, pudiramos usar la expresin
binomial b(x;n,p) = nCx px qn-x y sustituir los valores de x = 10, 11, 12, 13, 14, 15
en la frmula de abajo, y luego sumar todos los resultados usando la expresin de
abajo.
b(x;15,0.4) = 15Cx (0.4)x (0.6)15-x
Sin embargo, este procedimiento sera muy largo y tedioso. Siendo as, esto se
simplifica mucho si tomamos el complemento de la probabilidad de 1
(acordndose de que la probabilidad no puede ser mayor que 1 o negativa) y
usando la tabla de la distribucin binomial.
P(X 10) = 1 P(X < 10). Esto dice que x = 0, 1, 2, 3,.., 9
9
= 1 - b(x;15,0.4) = 1 0.9662
x=0
3-10
Dr. Hctor Quevedo Uras
= P(X 8) P(X 2)
= 0.9050 0.0271
= 0.8779 (usando la tabla de la distribucin binomial)
(c) La probabilidad de que exactamente 5 intoxicados sobrevivan es de x = 5, n =
15, p = 0.4. Esto se puede hacer de tres maneras: usando la tabla de las
probabilidades individuales (la forma ms sencilla) o la tabla acumulada o, bien, la
frmula. Usando la tabla binomial individual, buscamos el valor de n = 15 con p =
0.4 y con x = 5 y da 0.186.
5 4
P(X = 5) = B(5;15,0.4) = b(x;15,0.4) - b(x;15,0.4)
x=0 x=0
= 0.4032 0.2173
= 0.1859
Si usamos la frmula sera largo y tedioso, como se ve abajo.
P(X = 5) = B(5;15,0.4) = 15C5 (0.4)5 (0.6)15-5
= 15!/5!(15-5)! (0.0041)(0.6)10
= 0.1859
Ejemplo #6. Si el 20% de los tornillos producidos por una mquina son
3-11
Dr. Hctor Quevedo Uras
3-12
Dr. Hctor Quevedo Uras
= 0.59
Ejemplos aplicados a la ingeniera ambiental
Ejemplo #7. Supngase que el 40% de los ros de cierta regin industrial de
Mxico estn contaminados con benceno. Si tomamos una muestra aleatoria de
tamao n = 30, calcular lo siguiente:
(a) Exactamente 15 ros estarn contaminados con benceno
(b) Cuando menos 15 ros estarn contaminados con este compuesto
orgnico cancergeno, de una muestra de n = 25.
(c) No ms de 10 ros, pero cuando menos de 5 ros estarn contaminados de una
muestra aleatoria de n = 25.
Solucin:
Usamos la distribucin binomial, porque son dos eventos mutuos excluyentes o
binarios, es decir, estn o no estn contaminados los ros. Entonces, llamemos
arbitrariamente, un xito encontrar un ro contaminado y, un fracaso, no encontrar
un ro contaminado. Se usa la frmula binomial expresada como:
b(x;n,p) = nCx px (1 p)n-x = n! / (n x)! px qn-x
(a) Aqu, n = 30, x = 15, p = 0.40, q = 0.60. La muestra de 30 se puede interpretar
como 30 ensayos repetidos de Bernoulli. Ahora, sustituyendo los valores en la
frmula de arriba da:
B(15;30,0.40) = P(X = 15)
= 30! / (30 15)! (0.4)15(0.6)30-15
= 0.073
Tambin se pudiera usar la tabla de la distribucin binomial de densidad de
probabilidad o de probabilidades individuales, que son ms precisas y ms fciles
de usar que la frmula. Siendo as, con n = 30 y p = 0.4:
3-13
Dr. Hctor Quevedo Uras
3-14
Dr. Hctor Quevedo Uras
la bacteria (fracaso).
(a) Aqu, n = 25, p = .03, q = .97, X = 0
El tamao de muestra n = 25 indica que son 25 ensayos repetidos de Bernoulli, es
decir, que los posibles valores de la variable aleatoria X son de x = 0, 1, 2, 3,
4,., 24. Entonces,
(b) Cuando menos 1 bacteria indica X 1 y se expresa como:
P(X 1) = 1 P(X = 0) = 1 P(X < 1)
= 1 0.4670
= 0.533
(c) Entre 1 y 5 incluso se expresa como:
5
P(1 X 5) = B(5;25,0.03) P(X < 1) = 0.9999 0.467 = .533
x=0
3-15
Dr. Hctor Quevedo Uras
3-16
Dr. Hctor Quevedo Uras
3-17
Dr. Hctor Quevedo Uras
3-18
Dr. Hctor Quevedo Uras
3-19
Dr. Hctor Quevedo Uras
3-20
Dr. Hctor Quevedo Uras
3-21
Dr. Hctor Quevedo Uras
3-22
Dr. Hctor Quevedo Uras
3-23
Dr. Hctor Quevedo Uras
3-24
Dr. Hctor Quevedo Uras
aleatoria de 10 partes.
(b) De no encontrar partes defectuosas de los ciclones fabricados de una muestra
de 20 partes.
Solucin:
(a) Usando la frmula binomial: b(x;n,p) = nCx px qn-x y sustituyendo X = 0, p = 0.2
y q = 0.8 nos da:
P(X = 0) = B(0;10,0.2) = 10C0 (0.2)0 (0.8)10-0 = 0.107
Este resultado tambin se puede obtener usando la tabla binomial de
probabilidades individuales o de funcin de masa, es decir, buscando n = 10, p =
0.2 y X = 0.
(b) Nuevamente usando la frmula binomial y sustituyendo da:
P(X = 0) = B(0;20,0.2)= 20C0 (0.2)0 (0.8)20-0
= (1)(1)(0.012)
= 0.012
Anlogamente, este mismo resultado se puede obtener usando la tabla binomial
acumulada buscando n = 20, p = 0.2 y X = 0 y da 0.012. Aqu, ntese que tambin
se obtiene el mismo resultado usando la tabla binomial de probabilidades
individuales.
Ejemplo #14. Si tenemos una muestra aleatoria de n = 20 (peces) para varios
valores de p, podemos estimar la probabilidad de X muertes de los organismos
sometindolos a ciertas concentraciones txicas provenientes de una descarga
industrial de un ro. Para esto hacer los siguientes clculos:
(a) Calcular el promedio y la desviacin estndar , de la muerte de los peces, si
el valor de p = 0.05
(b) La probabilidad de que muera a lo ms 1 organismo
3-25
Dr. Hctor Quevedo Uras
3-26
Dr. Hctor Quevedo Uras
3-27
Dr. Hctor Quevedo Uras
Solucin:
(a) La tabla de probabilidades individuales, con n = 10 y p = 0.4 se da en la
TABLA 3.2 de abajo. Esto se hace con el programa Minitab. El procedimiento
para generar las probabilidades de funcin de masa P(X=x) es:
Calc Probability distributions Binomial
En la ventana de Binomial Distribution puntear Probability e introducir el
nmero de ensayos (10) y la probabilidad de xito (0.4). Adems, puntear Input
column, introducir los valores de X, y en la ventanilla de Optional storage poner
P(X=x) y luego OK. Todas estas ordenes generan la los valores de la TABLA 3.2.
TABLA 3.2. Tabla mostrando las probabilidades
binomiales individuales vs. valores de X.
__________________________________
P(X=x) Variable aleatoria X
__________________________________
0.006047 0
0.040311 1
0.120932 2
0.214991 3
0.250823 4
0.200658 5
0.111477 6
0.042467 7
0.010617 8
0.001573 9
0.000105 10
_________________________________
(b) Para hacer la grfica de P(X=x) vs. valores de X usar el programa Minitab y
proceder de la siguiente manera: Irse a: Graph Scatterplot. En la ventana de
Scatterplot que aparece, irse a With Connect Line e introducir los valores de
P(X=x) y valores de la variable aleatoria X. En la ventana de Scatterplot Data
3-28
Dr. Hctor Quevedo Uras
View puntear Symbols y Project Lines y OK. Esto genera la grfica de las
probabilidades binomiales de funcin de masa P(X=x), en funcin de los valores de
la variable X mostrada abajo. Siendo as, analizar la configuracin de los resultados
de la grafica y decir si es oblicua a la derecha o a la izquierda y explicar porque
ocurre de esa manera. La grfica se muestra abajo.
0.25 0.25
0.20 0.20
0.15 0.15
P(X=x)
0.10 0.10
0.05 0.05
0.00 0.00
0 2 4 6 8 10
Variable aleatoria X
3-29
Dr. Hctor Quevedo Uras
TABLA 3.3. Tabla mostrando los valores de la variable aleatoria X para este
problema. (Elaboracin propia)
P(X = 0) = 0.0060 P(X = 6) = 0.1115
P(X = 1) = 0.0403 P(X = 7) = 0.0425
P(X = 2) = 0.1209 P(X = 8) = 0.0106
P(X = 3) = 0.2150 P(X = 9) = 0.9916
P(X = 4) = 0.2508 P(X = 10) = 0.0001
P(X = 5) = 0.2006
(e) P(X = 4) = 0.2508 dice qu, si seleccionramos 100 muestras de tamao n = 10,
de una poblacin de operadores de la industria maquiladora esperaramos que 25
de estas muestras tendran un valor de X = 4 tomadores de licor.
Ejemplo #17. La paraestatal PEMEX de Mxico se avoc a hacer perforaciones en
el sureste de Tabasco. Para ver la factibilidad financiera de que fuera conveniente
hacer las perforaciones, PEMEX contrat los servicios de una firma de estudios
estadsticos. Se sabe que, cada pozo perforado se clasifica como productivo o no
productivo. La experiencia de PEMEX es que, en este tipo de exploraciones, se
sabe por experiencia que, el 15% de los pozos perforados son productivos. Para las
exploraciones petroleras se seleccionaron aleatoriamente 12 sitios. Con esta
informacin en mente, hacer los siguientes clculos.
(a) Cul es la probabilidad de que los 12 pozos que se perforen en cada uno de los
12 sitios, sean productivos?
(b) Cul es la probabilidad de que ningn pozo perforado sea productivo?
(c) Cul es la probabilidad de que exactamente un pozo sea productivo?
(d) Para hacer rentable al pas, cuando menos tres de los pozos de exploracin
deben ser productivos. Siendo as, Cul es la probabilidad de que el negocio sea
rentable?
3-30
Dr. Hctor Quevedo Uras
Sugerencia: Usar P(X = 12), P(X = 0), P(X = 1), P(X 3), etc.
Distribucin Hipergeomtrica
La funcin hipergeomtrica es una distribucin discreta de probabilidad, la cual
est estrechamente ligada a la distribucin binomial. La manera ms simple de ver
la diferencia entre las dos distribuciones radica en la forma que se hace el
muestreo. La diferencia entre estas dos distribuciones es que, en la distribucin
binomial, los intentos son independientes, porque hay reemplazo en la seleccin de
la muestra. Sin embargo, en el caso de la distribucin hipergeomtrica, hay
dependencia, porque la seleccin de la muestra se hace sin reemplazo y la
probabilidad de xito cambia de un intento a otro.
El modelo hipergeomtrico es apropiado, cuando el muestreo es sin
reemplazo de una poblacin finita y, cuando se requiere la probabilidad de un
nmero especfico de xitos y/o fracasos.
Suposiciones y propiedades de la distribucin hipergeomtrica
1. Una muestra aleatoria de tamao n se selecciona sin reemplazo de N tems.
2. k de los N tems pueden ser clasificados como xitos y, N k es clasificado
como fracasos.
3. La poblacin o conjunto de la muestra consiste de N individuos, objetos o
elementos (una poblacin finita).
4. Cada individuo puede ser caracterizado como un xito o un fracaso y hay k
xitos en la poblacin.
5. Una muestra de n individuos se selecciona sin reemplazo (hay dependencia, en
contraste con la binomial en la que hay independencia) en forma aleatoria.
Definicin de la distribucin hipergeomtrica
En la distribucin de probabilidad de una variable aleatoria hipergeomtrica X, el
3-31
Dr. Hctor Quevedo Uras
Donde:
k = xitos en n intentos, es decir, la cantidad de elementos
identificados como xito en la poblacin
N k = fracasos
n = tamao de la muestra aleatoria o cantidad de elementos en la
poblacin
N = nmero de tems (tamao de la poblacin)
Donde x no puede exceder de k y (n x) no puede exceder de (N k)
Observaciones:
NCn Representa la cantidad de formas en las que se puede
seleccionar una muestra de tamao n de una poblacin de
de tamao N
kCx Representa la cantidad de maneras en las que se puede
seleccionar x xitos de un total de k xitos de la
poblacin
N-kCn-x Representa la cantidad de maneras en las que se puede
seleccionar n x fracasos de un total de N k fracasos en la poblacin
Aplicaciones de la distribucin hipergeomtrica
Las aplicaciones de esta distribucin se encuentran en las pruebas electrnicas;
aseguranza de calidad; seleccin de diamantes industriales, algunos de los cuales
3-32
Dr. Hctor Quevedo Uras
3-33
Dr. Hctor Quevedo Uras
h(x;N,n,k) = x = 0,1,2,3.,n
NCn
Sustituyendo los valores en la frmula de arriba nos da la forma bsica lista para
3Cx 8-3C5-x
h(x;8,5,3)=
8C3
3-34
Dr. Hctor Quevedo Uras
3-35
Dr. Hctor Quevedo Uras
3-36
Dr. Hctor Quevedo Uras
3-37
Dr. Hctor Quevedo Uras
3-38
Dr. Hctor Quevedo Uras
TABLA 3.5. Tabla mostrando los valores de la variable aleatoria x (columna C1),
la probabilidades binomiales individuales P(X=x) y la probabilidades binomiales
acumuladas P(X x) (columna C3).
(a) (b)
Figura mostrando la grafica de P(X=x) versus variable aleatoria x Grafica mostrando la probabilidad P(X<=x) vs. variable aleatoria X
1.0 0 1 2 3 4 5 6
0.6 0.6
Probabilidades acumuladas
0.4 0.4
0.8
P(X=x)
0.3 0.3
0.7
0.2 0.2
0.0 0.0
0.5
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Variable aleatoria x Variable aleatoria X
Figura 3.4. Esquemas mostrando los resultados de este ejemplo. La figura (a)
muestra la grfica de P(X=x) vs. variable aleatoria X y, la figura (b), muestra la
grfica de P(X <= x). (Elaboracin propia)
3-39
Dr. Hctor Quevedo Uras
3-40
Dr. Hctor Quevedo Uras
4. Para resolver los incisos (a)-(e), esto se puede hacer usando el modelo
hipergeomtrico, h(x:N,n,k) = kCx N-kCn-x / NCn, los datos de la TABLA 3.5 o las
grficas. Por ejemplo si se usa la frmula se sustituyen los valores de k, N y n y
luego se sustituyen los valores de x en la frmula hipergeomtrica:
h(x;10, 3,4) = 4Cx 10-4C3-x / 10C3
Una vez hecho esto se sustituye los valores de x = 0, 1, 2, 3, 4. Este procedimiento,
sin embargo, es muy largo y tedioso. Pero si usamos los valores de la TABLA 3.5
esto se simplifica de sobremanera.
4. Las soluciones son:
(a) P(X = 1) = 4C1 6C2 / 10C3 = 0.500 (o de la columna C2)
(b) P(X = 2) = 4C2 6C1 / 10C3 = 0.300 (o de la columna C2)
(c) P(X = 3) = 4C3 6C0 / 10C3 = 0.033 (o de la columna C2)
2
3-41
Dr. Hctor Quevedo Uras
(a) (b)
Figura mostrando la grafica de P(X=x) vs. variable aleatoria x Figura mostrando la grafica de P(X<=x) vs. variable aleatoria x
0.5 1.0
0.9
0.4
0.8
0.7
P(X =< x)
0.3
P(X = x)
0.6
0.5
0.2
0.4
0.1 0.3
0.2
0.0 0.1
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Variable aletoria x Variable aletoria x
3-42
Dr. Hctor Quevedo Uras
3-43
Dr. Hctor Quevedo Uras
3-44
Dr. Hctor Quevedo Uras
Ejercicios Captulo 3
3.1. Si la variable aleatoria X tiene una distribucin binomial con n = 10 y p = 0.5,
calcular las siguientes probabilidades:
(a) P(X = 5) (0.246)
(b) P(X 2) (0.055)
(c) P(X 9) (0.011)
(d) P(3 X < 5) (0.549)
3.2. La variable aleatoria X tiene una distribucin binomial con un tamao de 10 y
con p = 0.01. Calcular lo siguiente:
(a) P(X = 5)
(b) P(X 2)
(c) P(X 9)
(d) P(3 X 5)
3.3. Supongamos que 20% de todos los sensores de alto volumen fallen en una
prueba de muestreo de partculas con filtros de cierta porosidad. Sea X el nmero
de entre 15 sensores seleccionados al azar que fallen la prueba. Entonces, si X tiene
una distribucin binomial, con n = 15 y p = 0.2, determinar lo siguiente:
(a) La probabilidad de que a lo sumo 9 muestreadores fallen la prueba. (.999)
(b) La probabilidad de que exactamente 8 fallen. (.003)
(c) La probabilidad de cuando menos 8 muestreadores fallen. (.004)
(d) La probabilidad de que fallen entre 4 y 7 excluso. (.143)
3.4. De acuerdo con la Chemical Engineering Progress (Noviembre de 1990),
aproximadamente, el 30% de todas las fallas de operacin de tuberas en plantas
qumicas son ocasionadas por errores del operador. Siendo as, calcular:
3-45
Dr. Hctor Quevedo Uras
3-46
Dr. Hctor Quevedo Uras
los problemas emocionales del trabajo, sino que dan solamente una solucin
paliativa al problema de las depresiones emocionales; siendo as, entonces,
encontrar el promedio y la varianza, cuando se seleccionan aleatoriamente 5
personas de una muestra de 20.
3.9. En una investigacin de higiene industrial y seguridad, el ingeniero encargado
del departamento de seguridad afirma que, solo el 40% de todos los trabajadores
usan cascos de seguridad cuando almuerzan en el lugar del trabajo. Suponiendo
que esta afirmacin sea correcta, encontrar la probabilidad de que 4 de los
siguientes 6 trabajadores de la industria, elegidos, aleatoriamente, usen los cascos
de seguridad, mientras comen en el lugar del trabajo. (0.138)
3.10. Una compaa constructora de precipitadores electrostticos sabe que, en
promedio, el 29% de este equipo de control de partculas requerirn de
reparaciones despus de un ao de usarse. Si se seleccionan, aleatoriamente, 20
precipitadores electrostticos, de la produccin total, encontrar la probabilidad que:
(a) Al menos 5 precipitadores requieran de reparaciones despus de un ao.
(b) Exactamente 5 de estas unidades de control de la contaminacin atmosfrica
requieran reparacin despus de un ao.
3.11. En un estudio de ahorro de energa, se argumenta que, en el 40% de las
calefacciones activadas con energa solar, la cuenta por servicio baja
considerablemente. De acuerdo a este argumento, Cul es la probabilidad de que
la cuenta de servicio baje, en cuando menos 5 de una muestra de 50 calefacciones?
Hacer este problema usando la distribucin binomial y despus la distribucin
normal. Comparar los resultados. (Binomial = 0.998, normal = 0.9987)
3.12. Hacer el mismo problema (3.11) pero usando 50% con n = 25 y P(X 5).
3.13. Se dan los siguientes datos: n = 15, p = 0.4. Calcular la probabilidad de que el
3-47
Dr. Hctor Quevedo Uras
3-48
Dr. Hctor Quevedo Uras
3-49
Dr. Hctor Quevedo Uras
3-50
Dr. Hctor Quevedo Uras
3-51
Dr. Hctor Quevedo Uras
CAPITULO 4
Distribucin de Poisson
4-1
Dr. Hctor Quevedo Uras
4-2
Dr. Hctor Quevedo Uras
4-3
Dr. Hctor Quevedo Uras
4-4
Dr. Hctor Quevedo Uras
Donde:
= promedio de ocurrencias por intervalo
= np
Donde: n = tamao de la muestra
p = la probabilidad
e = 2.71828... (Base de los logaritmos Neperianos)
x = 0, 1, 2,....., , es decir, los valores de la variable aleatoria X, esto es, el nmero
de resultados que ocurren en un intervalo de tiempo.
De acuerdo a la frmula de arriba, la distribucin de Poisson tiene un solo
parmetro simbolizado por la letra griega . Si conocemos este valor del promedio
podemos escribir la distribucin de probabilidad completa. Este parmetro
puede ser interpretado como el promedio de las ocurrencias, por intervalo de
tiempo o espacio que caracteriza el proceso generado por la distribucin de
Poisson.
Otra manera de ver la distribucin de Poisson es usando la funcin dada
abajo:
()x e-
p(x;) = (4-2)
x!
Donde:
4-5
Dr. Hctor Quevedo Uras
resultados por unidad de tiempo o regin. Aqu, debido a que es positiva para
todos los posibles valores de X, entonces:
4-6
Dr. Hctor Quevedo Uras
4-7
Dr. Hctor Quevedo Uras
4-8
Dr. Hctor Quevedo Uras
4-9
Dr. Hctor Quevedo Uras
4-10
Dr. Hctor Quevedo Uras
Ahora, bien, si se usar la distribucin binomial, esto sera largo y tedioso, porque
n es grande. Sin embargo, para usar la relacin b(x;n,p) = n!/x!(n x)! px qn-x,
necesitamos calcular el valor p, es decir, usando = = np. Con = .08 y n = 50
da: .08 = (50)(p) y p = .0016 ~ .002.
(a) Usando la frmula binomial b(x;n,p) = n!/x!(n x)! px qn-x y sustituyendo los
valores da:
b(x;50,.08) = 50!/x!(50 0)! (.002)x (.998)50-x
B(0;50,.08) = 50!/0!(50 0)! (.002)0 (.998)50-0
= (1) (1) (0.905) = 0.905
B(1;50,.08) = 50!/1!(50 1)! (.002)1 (0.998)50-1
= 49(.002)(0.907) = .098
B(2;50,0.08) = 50!/2!(50 2)! (.002)2 (.998)50-2
= 1225 (.000004)(0.908) = 0.0045
(b) Cuando menos un defecto es:
P(X 1) = 1 P(X = 0) = 1 - 0.905
= 0.095
(c) Exactamente, 2 defectos.
Esto nos lleva a P(X = 2) = B(2;50,0.08)
= 50C2(.002)2(.998)50-2
= (1225) (.000004)(0.91)
= 0.0045
Como se ve arriba, al usar la distribucin binomial, el proceso es largo y
complicado, por lo que es mejor usar la distribucin de Poisson como una
aproximacin a la binomial. En este instante, el lector deber usar la distribucin
Poisson y comparar los resultados obtenidos.
4-11
Dr. Hctor Quevedo Uras
4-12
Dr. Hctor Quevedo Uras
Usando la funcin (4-1), P(X) = f(x) = x e-/x! y sustituyendo los valores da:
4-13
Dr. Hctor Quevedo Uras
4-14
Dr. Hctor Quevedo Uras
4-15
Dr. Hctor Quevedo Uras
4-16
Dr. Hctor Quevedo Uras
Ejemplo #9. La probabilidad de que una persona muera de un arresto cardiaco, por
fumar en exceso, es de 0.002. Encontrar la probabilidad de que menos de 5
personas, de las siguientes 2,000, morirn de un sntoma del corazn. Encontrar,
tambin, el promedio y la varianza.
Solucin:
Primero calculamos el promedio y la varianza. Las frmulas para esto son:
= np = (2000)(0.002) = 4.0
2 = npq = (2,000)(0.002)(0.998) = 3.992
4-17
Dr. Hctor Quevedo Uras
4-18
Dr. Hctor Quevedo Uras
4-19
Dr. Hctor Quevedo Uras
Figura 4.1. Figura mostrando el uso del papel semilogaritmo graficando los valores
de la variable aleatoria X (en la abscisa) y de p(x;) en la ordenada. (Elaboracin
propia)
4-20
Dr. Hctor Quevedo Uras
4-21
Dr. Hctor Quevedo Uras
4-22
Dr. Hctor Quevedo Uras
S c a tte r plot of P (X = x) v s X
0.14
0.12
0.10
0.08
P(X=x)
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16
X
Scatterplot of P(X<=x) vs X
1.0
0.8
0.6
P(X<=x)
0.4
0.2
0.0
0 2 4 6 8 10 12 14 16
X
4-23
Dr. Hctor Quevedo Uras
Ejercicios Captulo 4
4.1. Supngase que X tiene una distribucin Poisson con promedio de 4. Calcular
las siguientes probabilidades:
a. P(X = 0) (0.0183)
b. P(X 2) (0.2379)
c. P(X = 4) (0.1953)
d. P(X = 8) (0.1953)
e. P(X 2) (0.9987)
4.2. Si la probabilidad de que un cheque sea devuelto por el banco es de 0.0003 y
10,500 cheques se cambian, entonces, cul es el nmero promedio ( o ) de
cheques fraudulentos?
4.3. La probabilidad de que un individuo sufra de una mala reaccin de una
inyeccin es de .001. Determinar la probabilidad que de 2,000 individuos,
exactamente 3 sufran una mala reaccin. Hacer este problema usando la
distribucin binomial y la Poisson. (Usando la distribucin de Poisson = 0.1893;
usando la distribucin binomial = 0.181)
4.4. El nmero promedio (t) de partculas radiactivas que pasan a travs de un
contador, durante un milisegundo, en un experimento de laboratorio es de 3. Cul
es la probabilidad de que entren 6 partculas en un milisegundo determinado?
Sugerencia: usar p(x;t) = e-t (t)x/x!
4.5. Un estudio en una fbrica de aparatos electrnicos llev al gerente a concluir
que el nmero de accidentes, por persona, durante cierto ao sigue a la distribucin
Poisson. La experiencia demostr que el nmero promedio de accidentes por
persona fue de 0.3. Cul es la probabilidad de que un empleado no tendr un
accidente durante el siguiente ao? (0.7410)
4-24
Dr. Hctor Quevedo Uras
4-25
Dr. Hctor Quevedo Uras
(e) Asumiendo que este estudio se hiciera en la poca calurosa, cul sera la
diferencia en los resultados, si el estudio se hiciera en invierno: aumentara o
disminuira la probabilidad?
4.12. Suponiendo que la probabilidad de que cierto tipo de semilla no germine sea
de .04. Si se plantan 25 semillas, Cul es la probabilidad de que 5 o menos
semillas no germinen?
4.13. Asumir que el nmero de autobuses que llegan a una terminal siga a un
proceso Poisson. Si el promedio de autobuses que llegan durante una hora es de 5,
calcular los siguientes enunciados:
(a) La probabilidad de que en 1 hora dada no llegue ningn autobs. (0.007)
(b) La probabilidad de que exactamente 5 llegarn en 1 hora. (0.176)
(c) La probabilidad de qu ms de 5 autobuses llegarn en una hora. (0.384)
4.14. El nmero promedio de carros tanque que arriban cada da a cierto puerto
martimo es de 9. Las facilidades portuarias pueden manejar a lo ms 15 carros
tanques (X 15) por da. Cul es la probabilidad de que en un da dado tengan
que ser regresado los carros tanques cuando el nmero exceda 15?
4.15. En la manufactura de un alambre de cobre, supngase que el nmero de fallas
sigue a una distribucin Poisson, con un promedio de 2.3 fallas por milmetro.
Calcular la probabilidad de:
(a) Tener exactamente 2 fallas en un milmetro del alambre de cobre. (0.2650)
(b) Tener 10 fallas en cinco milmetros de alambre. (0.113)
(c) La probabilidad de tener al menos una falla en dos milmetros. (.899)
4.16. En un estudio de higiene industrial y seguridad estatal, el nmero de baches
en una seccin de una carretera interestatal que requieren de reparacin urgente,
4-26
Dr. Hctor Quevedo Uras
4-27
Dr. Hctor Quevedo Uras
una tabla con los resultados de las dos distribuciones y luego hacer una grafica y
comparar los resultados.
Tabla mostrando los resultados usando la distribucin binomial y la distribucin de
Poisson. (Elaboracin propia)
Distribucin binomial Distribucin de Poisson
n b(x;100,0.01) p(x;1)
0 0.366 0.032 0.367 0.879
1 0.369 0.730 0.367 0.879
2 0.184 0.865 0.183 0.940
3 0.060 0.999 0.061 0.313
4 0.014 0.942 0.015 0.328
5 0.002 0.898 0.003 0.066
6 0.000 0.463 0.000 0.511
7 0.000 0.063 0.000 0.073
8 0.000 0.007 0.000 0.009
9 0.000 0.001 0.000 0.001
4-28
Dr. Hctor Quevedo Uras
(a) Explicar porque la distribucin de Poisson sera una buena seleccin para r =
nmero de terremotos en un intervalo de tiempo dado
(b) Calcular la probabilidad de que cuando menos un terremoto, de grandes
magnitudes, ocurra en los siguientes 22 aos. Redondear a las centsimas. (.63)
(c) Calcular la probabilidad de que no habr un terremoto de grandes magnitudes
en los siguientes 22 aos. Redondear a las centsimas. (0.37)
(d) Calcular la probabilidad de que ocurra cuando menos un gran terremoto en los
siguientes 50 aos. (1.0)
(e) Calcular la probabilidad de que no ocurra un gran terremoto dentro los
siguientes 50 aos. (0.980)
4.22. En un estudio de higiene industrial y seguridad se sabe que el nmero de
accidentes que pasan en la lnea de ensamblaje tiene un promedio semanal de 3.
Encontrar lo siguiente:
(a) La probabilidad de que una semana, la lnea de ensamblaje no tendr ningn
accidente.
(b) La probabilidad de que, cuando menos 3 accidentes ocurrirn en una semana.
(c) La probabilidad de que ocurran entre 2 y 6 accidentes excluso.
4.23. En una investigacin relacionada con el ahorro de combustible, en el 40% de
los coches no americanos de 4 cilindros, el consumo de gasolina se reduce
considerablemente (con relacin a los coches americanos de 6 u 8 cilindros). Si se
saca una muestra aleatoria de 15 coches de 4 cilindros, calcular la probabilidad que
4 de estos autos de 4 cilindros sean eficientes en el ahorro de gasolina. Hacer este
problema usando la distribucin binomial y la distribucin normal como
aproximacin. (B(4;15,0.04) = 0.1268); P(Z < -.7))
4-29
Dr. Hctor Quevedo Uras
4-30
Dr. Hctor Quevedo Uras
CAPITULO 5
5-1
Dr. Hctor Quevedo Uras
5-2
Dr. Hctor Quevedo Uras
b
P(a X b) = a f(x) dx (5-4)
Para que la funcin de densidad de probabilidad sea vlida debe de satisfacer las
siguientes dos condiciones:
1. f (x) 0 para todas las xs (5-5)
2. - f (x) dx = rea bajo la grfica completa de f (x) = 1 (5-6)
Dejemos que f sea una funcin que se define en el intervalo cerrado de [a, b],
b
Cualquier antiderivada de f(x) puede ser usada para evaluar el integral (5-7).
Entonces, si F es una antiderivada de f, usamos la frmula de abajo:
b
a f (x) dx = F(b) F(a) (5-8)
b b
a f (x) dx = F (x) a = F (b) F (a) (5-9)
5-3
Dr. Hctor Quevedo Uras
3
(a) 1 e-2x dx = (-0.5) [e-2 e-6] = 0.067
(b) 0.5 e-2x dx Intervalo [0.5, ]
3
(c) 0 e-2x dx = (-0.5) [e-6 1] = 0.5 Intervalo [0, 3]
plato de prueba durante 2 horas. Supngase que la variable aleatoria X tiene funcin
(a) P (X 1)
(b P (.5 X 1.5)
Solucin:
5-4
Dr. Hctor Quevedo Uras
1 1
(a) 0
2
0.5x dx = 0.5 (x /2)0 = 0.5 (0.5 0/2) = 0.25
1.5 1.5
(b) 0.5
2
0.5 x dx = 0.5 (x /2)0.5 = (0.5)(1.125 - .125) = 0.5
2.0 2.0
(c) 1.5
2
0.5 x dx = 0.5(x /2) 1.5 = 0.5(2.0 1.125) = 0.44
5-5
Dr. Hctor Quevedo Uras
(a) Usando la relacin matemtica de f(x) y g(x) cuyas funciones son continuas y
tienen una antiderivada en el intervalo [a, b], siendo as, entonces, usamos la funcin
(5-10) de abajo y sustituyendo da:
b b b
a [f(x) + g(x)] dx = a f(x) dx + a g(x) dx (5-10)
1 1 1
0 (2x/5 + 4/5) dx = 0 2x/5 dx + 0 4/5 dx = 2x2/(2)(5) + 4x/5
1 1
= x2/50 + 4x/5 0 = [1/5 0] + [4/5 0]
=1
(b) Aqu el intervalo es [0.25 < X < .50]. Esto dice que, a = 0.25 y b = 0.50
.50 .50 .50
Por lo tanto: .25 (2x/5
2
+ 4/5) dx = x /5 .25 + 4x/5 .25
La distribucin normal
5-6
Dr. Hctor Quevedo Uras
Sin embargo, es difcil resolver las integrales de las funciones de densidad normal,
debido a que no se pueden integrar en forma cerrada, entre cada par de lmites de a y
b. Debido a esta situacin se hace necesario la tabulacin de las reas de la curva
5-7
Dr. Hctor Quevedo Uras
Adems, sera muy difcil hacer una tabla por separado para cada valor de y
. Afortunadamente, es posible transformar todas las observaciones de cualquier
variable aleatoria normal X a nuevo conjunto de observaciones de una variable
aleatoria normal z con promedio de 0 y varianza de 1. Las transformaciones se hacen
usando la frmula de la variable aleatoria normal estandarizada z que se usa para
transformar cualquier variable aleatoria normal X con promedio y desviacin
estndar a la distribucin normal estandarizada. Esta frmula para calcular las
probabilidades de cualquier distribucin normal (no estandarizada) se da como:
X
Z = (5-14)
z = (X X ) / s (5-15)
Como se dijo arriba, hay tablas que dan los resultados de la integracin, por lo
tanto, no tenemos que hacer la integracin para calcular las probabilidades. En cuanto
a las propiedades de la distribucin normal, stas se dan en la TABLA 5.0 de abajo.
5-8
Dr. Hctor Quevedo Uras
Figura 5.1. Esquema mostrando las reas bajo la curva normal. (Brase et al. 1995)
5-9
Dr. Hctor Quevedo Uras
estn dentro de una desviacin estndar a cada lado del promedio; aproximadamente,
el 95.45% de los valores estn dentro de dos desviaciones estndar en cada lado del
promedio; y aproximadamente, el 99.73% de las observaciones estn dentro de tres
desviaciones estndar del promedio.
5-10
Dr. Hctor Quevedo Uras
P(-1.97 < z < 0.86) = P(z < 0.86) P(z < -1.97)
= 0.8051 0.0244 = 0.7807 (de la tabla de la distribucin normal)
5-11
Dr. Hctor Quevedo Uras
Por lo tanto, P(X > 362) = P(z > 1.24) = 1 P(z < 1.24)
= 1 0.8925 = 0.1075
5-12
Dr. Hctor Quevedo Uras
5-13
Dr. Hctor Quevedo Uras
5-14
Dr. Hctor Quevedo Uras
Figura 5.3. Grfica de la curva normal para el Ejemplo #8. (Elaboracin propia)
5-15
Dr. Hctor Quevedo Uras
Solucin:
Se busca el valor de z = 1.42 en la tabla de z y da .9222. Esto es lo mismo que, rea
requerida de .5000 + .4222 = .9222.
Ejemplo #12. Encontrar la probabilidad de que la variable Z est entre -05 y 1.25.
Solucin:
P(-0.5 < Z < 1.25) = 1.0 0.3085 0.1056 = 0.5859
La Figura 5.4 muestra esquemticamente esta situacin.
Figura 5.4. Figura mostrando la probabilidad de P(-05 < Z < 1.25). (Elaboracin
propia)
5-16
Dr. Hctor Quevedo Uras
5-17
Dr. Hctor Quevedo Uras
Figura 5.5. Grfica mostrando la curva normal para este problema. (Elaboracin
propia).
Ejemplo #16. En una investigacin de higiene industrial y seguridad, relacionada con
un proceso industrial, se requiere una aptitud mental muy alta. Para esto, los
trabajadores se sometieron a una prueba del coeficiente de intelecto (IQ). Si se saca
una muestra al azar que da X = 120 puntos y s = 20 puntos, Cul es la probabilidad
de que un trabajador seleccionado tendr un valor de coeficiente de intelecto que est
entre 80 y 140 puntos?
Solucin:
Aqu estamos buscando la probabilidad de P(80 < X < 140) = P(-2.00 < z < +1.00).
Por lo tanto, el rea total o la probabilidad requerida es igual a 0.8185. Esto dice que,
cerca del 82% de la poblacin tiene un IQ de esta prueba del intelecto que est entre
80 y 140 puntos.
Ejemplo #17. Si una muestra aleatoria de una poblacin normal de intensidades de
viento, en m/segundo, tiene un promedio de 10 m/seg y una varianza de 4:
(a) Qu porcentaje y/o probabilidad de las intensidades del viento caen entre 9 y 14
m/seg.?
(b) Entre 13 y 15?
Solucin:
5-18
Dr. Hctor Quevedo Uras
5-19
Dr. Hctor Quevedo Uras
.500). Sin embargo, aqu vemos que no hay entrada de 0.4000, no obstante, lo ms
cercano es .3997 que corresponde al valor de z = 1.28.
Encontrando los valores z del punto de expansin para variables normalmente
distribuidas
Ejemplo #21. Calcular dentro de que rango estarn comprendidas el 95% de las
observaciones centrales o de en medio, si el promedio es de 10 y la desviacin
estndar es de 2. Hacer una grfica.
Solucin:
Aqu, vamos a usar la relacin: X = X z (s), con X = 10.0 y s = 2.0, es decir:
10 1.96 (2) = 10 3.92 para dar (6.08 X 13.92). La figura de abajo muestra
esta situacin.
Figura 5.6. Grafica mostrando los resultados de este problema. (Elaboracin propia)
Ejemplo #22. Si X = 10 y s = 2, Dentro de que rango estn comprendidas el 99% de
las observaciones de en medio de la curva normal?
(b) El 90%?
Solucin:
5-20
Dr. Hctor Quevedo Uras
Solucin:
5-21
Dr. Hctor Quevedo Uras
= 20 3.84
= (16.16 X 23.84)
Ejemplo #24. Una mquina produce tornillos de los cuales 10% son defectuosos.
Encontrar la probabilidad de que, en una muestra aleatoria de 400 tornillos
producidos por esta mquina:
(a) A lo ms 30 tornillos estarn defectuosos
(b) Entre 30 y 50 estarn defectuosos
(c) Entre 35 y 45 estarn defectuosos
(e) 55 o ms tornillos estarn defectuosos
Solucin:
Primero se calcula el promedio y la desviacin estndar:
= np = (400)(0.1) = 40 y = npq = [(400)(0.1)(.90)]0.5 = 6.0
Enseguida, se calcula el valor de la variable aleatoria Z usando la relacin:
Z = (X ) / .
(a) P(X 30). Para calcular esto, primero se transforma el valor de 30, a valores de Z
usando la funcin de arriba, es decir,
Z30 = (30 40)/6.0 = -1.67
Por lo tanto:
(b) P(30 X 50). Para calcular esto, primero transformamos los valores de 30 y
50 a valores de Z, es decir,
Z30 = (30 40) / 6.0 = -1.67; Z50 = (50 40) / 6.0 = 1.67
5-22
Dr. Hctor Quevedo Uras
Por lo tanto,
P(30 X 50) = P(X 50) P(X 30)
= P(Z 1.59) - (Z -1.59)
= .9441 - 0.0559
= .8882
(c) La probabilidad de qu, entre 35 y 45 tornillos estn defectuosos, es, P(35 X
45). Para esto, primero transformamos los valores de X a valores de Z.
Z35 = (35 40)/6.0 = -0.83 y Z45 = (45 40)/6.0 = 0.83.
z55 = (55 40) / 6.0 = 2.50 que corresponde a una probabilidad de .9938. Por lo tanto:
5-23
Dr. Hctor Quevedo Uras
5-24
Dr. Hctor Quevedo Uras
5-25
Dr. Hctor Quevedo Uras
5-26
Dr. Hctor Quevedo Uras
Figura 5.9. Grficas mostrando los resultados para (a) y (b), del ejemplo #26.
Ejemplo #28. El tiempo requerido para que ocurra una reaccin qumica est
exponencialmente distribuida con un tiempo esperado de 5 minutos. (a) Qu
proporcin de la sustancia se formar dentro de 1 minuto? (b) En 5 minutos? (c)
Entre 4 y 8 minutos? (d) Si la cantidad de la sustancia qumica es de 5.00 gramos,
cunto es lo que se va formando en cada uno de los intervalos? (El lector lo har)
Solucin:
Usaremos intervalos de 1 minuto para calcular la probabilidad. Por lo tanto, debido
a que la reaccin se hace en 5 minutos en promedio (pensamos de esto
producindose en 5 intervalos continuos de un minuto) el nmero esperado de
produccin en un minuto es 1/5 = .20 = (o sea el nmero esperado de ocurrencias
en 1 minuto). La variable aleatoria X se define como el tiempo, en minutos,
requerido para completar la reaccin. Por lo tanto:
(a) P[X 1] = 1 e-(0.20(1) = 0.8187 = 81.87% (Usando la frmula 5-17b)
(b) P[X 5] = 1 e-(0.20)(5) = 0.3679 = 36.87% (usando la frmula 5-17b)
(c) P[4 < X < 8] = e-(0.20)(4) e-(0.20)(8) = 0.2474 (usando la frmula 5-17a)
(d) 4.09 g., 1.84 y 1.23 g, respectivamente.
5-27
Dr. Hctor Quevedo Uras
5-28
Dr. Hctor Quevedo Uras
o de otra manera
Donde los parmetros y satisfacen > 0 y > 0
Si se pone = 1 la expresin (5-19) se reduce a la forma de de la distribucin
gamma estndar descrita abajo.
x
f (x;) = 0 x-1 e-x / () dx x > 0 (5-20)
Figura 5.10. Grficas con distribuciones gamma de densidad con diferentes valores
de y y curvas de densidad gamma estndar. Ntese que cuando = 1, es la
curva exponencial. (Devore 2000).
Ejemplo #29. Supngase que se tiene una distribucin gamma estndar con
parmetro = 3, calcular:
5-29
Dr. Hctor Quevedo Uras
5-30
Dr. Hctor Quevedo Uras
= 0.076
Esto dice que el valor de 0.076 es la probabilidad de que un conejillo sobreviva
entre 80 y 120 das.
(c) P(X 20) = 1 - P(X < 20)
= 1 - F(20/20;10)
= 0.000 (de la tabla de la distribucin gamma)
Distribucin Weibull
La distribucin Weibull fue introducida por el fsico sueco Waloddi Weibull en
1939. En forma anloga a las distribuciones gamma y exponencial la distribucin
de Weibull tiene aplicaciones relacionadas con tiempo de falla o longitud de vida.
Es decir, para medir la confiabilidad de un componente o producto, como la
probabilidad de que si funcionar apropiadamente, por cuando menos un tiempo
especificado bajo condiciones experimentales especificadas. Esta funcin,
igualmente, se usa en el diseo de sistemas complicados, cuya operacin o
seguridad depende de los varios componentes involucrados en el sistema. Por
ejemplo, una columna de acero puede vencerse. Otra aplicacin es el modelado de
algn aparato sensible al calor que pueda fallar. Otra aplicacin sera el estudio de
componentes idnticos sujetos a condiciones ambientales idnticas, que puedan
fallar a tiempos diferentes e impredecibles.
La funcin de probabilidad de densidad (pdf) de la distribucin Weibull es:
f (x) = x-1 exp-(x/)2 / , x > 0 (5-22)
Donde y son los parmetros condicionados a > 0 y > 0
5-31
Dr. Hctor Quevedo Uras
Figura 5.11. Grfica mostrando la curva de densidad de Weibull. Ntese que cuando
= 1 y = 1, la curva se torna exponencial. (Devore, 2000)
5-32
Dr. Hctor Quevedo Uras
Donde:
5-33
Dr. Hctor Quevedo Uras
5-34
Dr. Hctor Quevedo Uras
Aqu, sin embargo, cabe notar que existen varios errores estndares de las
distribuciones estadsticas. Esta informacin se da en la tabla de abajo.
5-35
Dr. Hctor Quevedo Uras
Desviaciones s = / 2 N (1)
estndares s = 4- 2/4N2 (2)
Varianzas 2s = 2 2 / N (3)
s2 = 4 - 22 / N (4)
Las observaciones hechas para la desviacin estndar aplican aqu tambin. Ntese
que (2) da (1) en el caso de una poblacin normal.
___________________________________________________________________
5-36
Dr. Hctor Quevedo Uras
Cualesquiera de las hiptesis que sea correcta, siempre hay la posibilidad de que un
error de muestreo nos incline a cometer lo que se llaman errores I o II. As, podemos
rechazar una hiptesis nula Ho: que es verdadera o podemos aceptar una hiptesis
nula que es falsa. Si se rechaza una hiptesis, cuando debi ser aceptada, se dice que
se cometi el error I. En contraste, si se acepta una hiptesis falsa, cuando debi ser
rechazada, se dice que se cometi el error II. Como se ver, estos dos errores se
pueden evitar aumentando el tamao de la muestra estadstica y/o reduciendo la
desviacin estndar (esto se puede probar a travs del error estndar del promedio,
que es igual a s/ n ).
De cualquier manera, como se asent antes, la idea de una prueba de hiptesis
es tratar de producir evidencia para rechazar la hiptesis nula, Ho: Si no se puede
rechazar la hiptesis nula, esta falta de evidencia puede resultar, ya sea a travs de una
muestra insuficientemente grande o a travs de un error de laboratorio excesivamente
grande (que se refleja en la desviacin estndar, ). Tambin, la aceptacin de una
hiptesis falsa puede deberse a una variacin inherente de la poblacin que estamos
muestreando (como en el caso de las temperaturas a nivel mundial cuyos registros se
estn rompiendo cada ao, por el calentamiento global debido a las emisiones de
bixido de carbono). De cualquier manera de estas tres variables, es la ms sensible.
5-37
Dr. Hctor Quevedo Uras
5-38
Dr. Hctor Quevedo Uras
especifica antes de que se saquen las muestras y se haga la prueba de hiptesis, para
que no haya influencia sobre los resultados obtenidos.
La prueba de significancia es cuando se especifica la probabilidad con la cual
estamos dispuestos a arriesgar el rechazo de la hiptesis, acerca del promedio
poblacional, aun cuando es verdadero. Los niveles de significancia ms usados en las
pruebas de hiptesis son el de = 0.05 y = 0.01. Estos valores corresponden a
niveles crticos de 1.96 y 2.58, cuando se usa la distribucin normal z. Por ejemplo,
en pruebas de hiptesis bilaterales, con = 0.05, si la z calculada es z < -1.96 o z >
1.96, se rechaza la hiptesis. Igualmente ocurre si el nivel de significancia es = 0.01,
es decir, cuando z < -2.58 y z > 2.58, entonces, se rechaza la hiptesis. De otra
manera se retiene o se dice que no hubo suficiente evidencia para rechazar Ho: Esta
prueba de significancia nos ayuda a decidir si la diferencia entre el promedio de la
muestra estadstica y el promedio poblacional asumido, se atribuye a la casualidad o
si es estadsticamente significante, esto es, si es muy grande para ser atribuido a la
casualidad. La TABLA 5.4 da los valores crticos ms comunes.
TABLA 5.4. Tabla mostrando las regiones crticas que se definen de acuerdo al valor
del nivel de significancia usado, es decir, si la prueba de hiptesis es bilateral,
unilateral derecha o unilateral izquierda. (Elaboracin propia)
5-39
Dr. Hctor Quevedo Uras
5-40
Dr. Hctor Quevedo Uras
5-41
Dr. Hctor Quevedo Uras
5-42
Dr. Hctor Quevedo Uras
5-43
Dr. Hctor Quevedo Uras
(o H1: < que cierto valor), usamos el extremo izquierdo de la distribucin y ponemos
el nivel de significancia de = 0.05 o 0.01. Finalmente, si esperamos que los valores
vayan a ser menores o mayores de ciertas cantidades (Ho: = a un determinado valor),
entonces usamos los dos extremos de la distribucin y dividimos , igualmente, entre
dos, para que nos d, = 0.05/2 o = 0.01/2, etc.
Si hacemos las pruebas de otros, por medio del examen de la hiptesis nula,
Ho: podemos deducir si la prueba es de dos colas o de una cola (derecha o izquierda).
Por ejemplo, si Ho: = 98.6, entonces H1: 98.6 y se dice que las pruebas
alternativas son de H1: > 98.6 y H1: < 98.6. No obstante, si la prueba de hiptesis
nula es de Ho: 98.6, entonces, la cola de la hiptesis alternativa (que es lo
contrario de la hiptesis nula Ho:) apunta a la izquierda (como < 98.6), y la prueba
es de la cola izquierda (unilateral izquierda). Sin embargo, si Ho: 98.6, entonces la
prueba es de que > 98.6, y la prueba es de la cola derecha (unilateral derecha).
Resumen en el establecimiento de las pruebas de hiptesis bilaterales (dos colas)
o unilaterales (de la cola derecha o de la izquierda):
Si la prueba de hiptesis nula es Ho: = o, entonces, la prueba es bilateral y las
hiptesis alternativas son: H1: o. H2: > o y H3: < o, donde o es el valor
esperado.
Si la prueba de hiptesis nula es Ho: o, entonces, la prueba es unilateral izquierda
y la hiptesis alternativa es H1: < o.
Si la prueba de hiptesis nula es Ho: o, entonces, la prueba es unilateral derecha y
la hiptesis alternativa es H1: > o.
Definiendo los pasos clsicos en el procedimiento para hacer pruebas de
hiptesis
1. Establecer la prueba de hiptesis nula (Ho:) y el promedio esperado o y las pruebas
5-44
Dr. Hctor Quevedo Uras
5-45
Dr. Hctor Quevedo Uras
5-46
Dr. Hctor Quevedo Uras
5-47
Dr. Hctor Quevedo Uras
5-48
Dr. Hctor Quevedo Uras
5-49
Dr. Hctor Quevedo Uras
comparan con ztab. o ttab. Si la estadstica calculada es mayor que la estadstica tabulada
(de las regiones crticas) se rechaza la hiptesis nula. De otra manera, se acepta la
hiptesis o no se hace ninguna decisin. De esta manera, si el valor de la estadstica
calculada se mete en las regiones crticas se rechaza la hiptesis nula (o tambin si el
valor de p es menor o igual al nivel de significancia, deseado).
Nota: Aqu es importante recordar que, la prueba de hiptesis nula estadstica se
dise el siglo antepasado. En tiempos modernos de la era ciberntica, existe la
prueba no tradicional relacionada con el valor de la probabilidad p. Tambin es
importante notar que muchos programas de computadora dan nicamente el valor de
p y el investigador o lector tiene que interpretarlo acordemente.
Mecanismos para calcular los valores de la probabilidad p (para la distribucin
normal) cuando se hacen las pruebas de hiptesis no tradicionales (calculando el
valor de p)
1. Para calcular el valor de la probabilidad p, se busca el valor de la z calculada en la
tabla de la distribucin normal, con el valor del nivel de significancia usado. Los
criterios que se siguen se hacen comparando el valor de la p con el valor de .
2. Los criterios que se siguen para interpretar el valor de p son:
P .05 La prueba est en el umbral de la significancia. Aqu casi siempre se
acepta la hiptesis nula. Es un argumento dbil y no convincente en la pruebas de
hiptesis. Nos deja en una situacin de incertidumbre. Nos dice que, tal vez as
sea.
P .01 La prueba es altamente significativa. Se considera un argumento
estadstico muy fuerte en contra de la aceptacin de la hiptesis nula. La
probabilidad de .01 dice que pudiramos habernos equivocado en la
decisin de rechazar la hiptesis nula, con una probabilidad de 1 en 100 de haber
5-50
Dr. Hctor Quevedo Uras
5-51
Dr. Hctor Quevedo Uras
p = 1 - .9987 = .0013
Como la prueba es unilateral, as se queda.
(c) Para z = -3.2 con Ho: o. Esta es una prueba unilateral izquierda (porque el
valor de z es negativo). Buscamos este valor en la tabla de la distribucin normal y da
.0007.
Metodologa para calcular los valores de la probabilidad p dependiendo de la
estadstica usada
Para las pruebas de hiptesis no tradicionales, es decir, usando el valor de la
probabilidad p, es necesario hacer interpolaciones de los valores obtenidos. Sin
embargo, en el caso de la distribucin normal, para estimar el valor de la probabilidad
p, no es necesario hacer interpolaciones, porque se puede leer directamente en la tabla
de la distribucin normal el valor de la estadstica z calculada. No obstante, para la
distribucin de t de estudiante, para la distribucin Fisher, para la distribucin de la JI
cuadrada, etc., si es necesario hacer interpolaciones. Esto se hace buscando el valor de
la estadstica calculada en la tabla de la distribucin que se est usando con su
correspondiente valor de grados de libertad y del valor porcentual deseado.
5-52
Dr. Hctor Quevedo Uras
5-53
Dr. Hctor Quevedo Uras
5-54
Dr. Hctor Quevedo Uras
5-55
Dr. Hctor Quevedo Uras
niveles de significancia.
TABLA 5.5. Tabla mostrando las regiones crticas de acuerdo al valor del nivel de
confianza usado, es decir, si la prueba de hiptesis es bilateral, unilateral derecha o
unilateral izquierda. (Elaboracin propia)
Nivel de confianza (%) 90% 95% 99% 99.5%
Valores crticos de z
para pruebas unilaterales 1.28 1.645 2.33 2.58
(derecha o izquierda) o -1.28 o -1.645 o -2.33 o -2.58
___________________________________________________________________
Valores crticos de z para 1.645 1.96 2.58 2.81
pruebas bilaterales
5-56
Dr. Hctor Quevedo Uras
5-57
Dr. Hctor Quevedo Uras
74.0 mg/L. Suponiendo que 2 = 81.0 mg/L, indicara esto que un lmite de
concentraciones de NOx est arriba de 70 mg/L? Usar = 0.05.
Solucin:
1. La prueba de hiptesis nula debe ser Ho: 70, porque la hiptesis alternativa,
dada por el problema, es H1: > 70.
2. Por lo tanto, la prueba de hiptesis es una prueba unilateral derecha.
3. La regin crtica es z = z0.05 = 1.645
4. La estadstica usada es z = ( X o) / / n
Sustituyendo los valores del promedio X = 74, de la desviacin estndar = 9, n =
36 y o = 70 en la funcin estadstica z da:
z = (74 70) / 9/ 36 = 2.66
5. Al comparar el valor de zcalc. = 2.66, con ztab. = 1.645, se rechaza la hiptesis nula y
se dice que, H1: > 70, con un valor de p = 1 - .9961 = .0039, de haber hecho la
decisin equivocada. Aqu, ntese que el valor de p no se multiplica por 2, porque la
prueba es unilateral derecha. Como resultado, la evidencia a favor de H1: es ms
fuerte que la sugerida por un nivel de significancia de 0.05 (porque .0039 <<< 0.05).
Ejemplo #38. En un estudio de la ingeniera ambiental atmosfrica, para evitar la
contaminacin ambiental producida por el consumo excesivo e innecesario de
gasolina, en el diseo de un motor de combustin interna, el departamento de
ingeniera de un constructor de autos, de cierto modelo, afirma que el rendimiento del
millaje de este modelo de auto es de cuando menos 35 millas por galn. El
departamento de control de calidad sugiere que el valor de la desviacin estndar es
de = 4 millas. La Environmental Protection Agency de Estados Unidos de Amrica
quiere probar esta afirmacin para ver si la figura afirmada debera ser ms alta o ms
baja que 35 millas por galn. Para esto, se saca una muestra aleatoria de 50 modelos
5-58
Dr. Hctor Quevedo Uras
de este tipo y se prueban bajo circunstancias iguales. Los resultados dan un promedio
muestral de 33.6 millas por galn. Probar el reclamo del departamento de ingeniera
usando un nivel de significancia de 0.05. Calcular el valor de p.
Solucin:
1. La prueba es bilateral, porque un promedio muestral significantemente, ms alto
que 35 (cola derecha) o menos que 35 (cola izquierda) es una fuerte evidencia contra
la hiptesis nula de = 35.
2. Las regiones crticas son distribuyendo = 0.05 igualmente entre las dos colas para
obtener 0.025 en cada una, con esto, los valores crticos son de 1.96.
3. Usamos la funcin estadstica y sustituimos los valores y da:
z = ( X o) / / n
z = (33.6 35) / 4 50 = -2.47
4. En conclusin, debido a que el valor de -2.47 se introduce en el extremo izquierdo
de la distribucin normal, se rechaza la hiptesis. El valor de p es de .0068, pero
como son dos colas, entonces, este valor se multiplica por 2 y da .0136. Ver figura de
abajo.
X = 33.6
z = -2.47
Figura 5.14. Grfica mostrando los valores crticos para el problema de arriba.
5-59
Dr. Hctor Quevedo Uras
(Elaboracin propia)
Ejemplo #39. El estndar qumico para el agua potable, en cuanto a slidos disueltos
totales (SDT) es de 500 mg/L. Para probar esta aseveracin se saca una muestra
aleatoria de 144 casos y da un promedio aritmtico estadstico de 503 mg/L, con una
desviacin estndar de 15 mg/L. Probar la hiptesis de que el estndar qumico, para
el agua potable es de no ms de 500 mg/L. Para esto, usar = 0.05 y calcular el valor
de p.
Solucin:
1. La prueba de la hiptesis nula es Ho: 500. Esto quiere decir que, la prueba es
unilateral derecha.
2. La hiptesis alternativa es H1: > 500.
3. La regin crtica es unilateral derecha, esto es, z = z0.05 = 1.645.
4. Ahora, sustituyendo los valores correspondientes de X = 503, = s = 15, n = 144 y
o = 500, en la funcin de z nos da:
zcalc. = (503 500) / 15/ 144 = 2.4
5. En conclusin, debido a que el valor de la estadstica se introduce en el extremo
derecho de la distribucin, se rechaza la hiptesis nula y se inclina por la hiptesis
alternativa.
6. El valor de la probabilidad p se calcula buscando el valor de 2.4 en la tabla de la
distribucin normal y da .9918, pero como queremos nicamente el valor de p, le
restamos 1 y nos da p = 1 - .9918 = .0082. Este valor es muy significante.
Ejemplo #40. Se calcula el promedio muestral de 5 ppm de cadmio (Cd), para medir
la calidad del aire, de cierta regin industrial. Esto se hace sacando una muestra de 36
observaciones de Cd atmosfrico. Hacer lo siguiente:
(a) Una prueba de hiptesis con o = 4.85 ppm, con = 0.05 y = 0.01
5-60
Dr. Hctor Quevedo Uras
En conclusin, debido a que el valor de zcalc. = 3.00 es mayor que el valor crtico de
1.96 se rechaza Ho: y nos inclinamos por la hiptesis alternativa de H3: > 3.85. Cosa
similar ocurre con el nivel de significancia de = 0.01, porque el valor de 3.00 es
mayor que el valor crtico de 2.58.
Por otra parte, con respecto a la estimacin del intervalo de confianza del 95%,
que corresponde a un nivel de significancia de = 0.05, los valores crticos son de
1.96. La estimacin puntual de es X = 5.0. Para calcular el intervalo de confianza
de 95%, se sustituyen los valores en ecuacin (5-24) de abajo para dar:
X z/2 / n < < X + z/2 / n
5-61
Dr. Hctor Quevedo Uras
5-62
Dr. Hctor Quevedo Uras
5-63
Dr. Hctor Quevedo Uras
M edian
Figura 5.15. Figura mostrando el histograma de los datos con curva normal
sobrepuesta, los intervalos de confianza para el promedio y la mediana y la estadstica
descriptiva.
Para el inciso (c), es decir, para la prueba de normalidad de los datos esto se hace
usando la estadstica de Kolmogorov-Smirnov, del programa Minitab. Siendo as, se
procede de la siguiente manera:
Basic Statistics Normality Test
En la ventanilla del recuadro de Normality Test introducir las variables y puntear
Kolmogorov-Smirnov. Esto genera la figura de abajo.
5-64
Dr. Hctor Quevedo Uras
60
50
40
30
20
10
1
16 18 20 22 24 26 28 30 32
C1
5-65
Dr. Hctor Quevedo Uras
de 55.0 oC, con una desviacin estndar de 1.0 oC. Si se sabe que la distribucin de
los tiempos de activacin de los sistemas de aspersin, contra los incendios, de este
fabricante, es normal, se refutara el argumento del fabricante de que el verdadero
promedio es el que se menciona arriba? Asumir un nivel de significancia de 0.05.
1. Aqu la prueba de hiptesis es Ho: = 54.4 contra la prueba de hiptesis alternativa
de H1: 54.4.
2. Debido a que la prueba de hiptesis llena la condicin de igualdad, la prueba es
bilateral, es decir, z z.025 y z z.025, esto es, z 1.96 o z -1.96.
3. Usamos la distribucin de z, aunque el tamao de la muestra no sea de n > 30
casos. Esto es as, porque sabemos de antemano que la poblacin muestreada es
normal. Tambin se pudiera usar la distribucin de t de estudiante, pero en este caso
es mejor usar la distribucin z porque es mas precisa.
4. Siendo as, el valor de la prueba estadstica es:
z = (55.0 54.4) / 1.0/ 16
= 2.4
5. De acuerdo al inciso (4) el promedio muestral observado se encuentra a 2.4
desviaciones estndar arriba de lo que se hubiera esperado, si Ho: fuera verdadera.
6. En conclusin, debido a que el valor calculado de z cae en la regin crtica derecha,
se rechaza la prueba de hiptesis tradicional.
7. Ahora, para hacer la prueba de hiptesis no tradicional, es decir, calculando el valor
de p, buscamos en la tabla de la distribucin normal el valor de 2.4 y vemos que el
valor de la probabilidad p es p = 2(1 0.9918) = 0.0164.
8. El valor de p = 0.0164 contradice la afirmacin del fabricante de que el verdadero
promedio de sus productos contra incendios es de 54.4 oC.
5-66
Dr. Hctor Quevedo Uras
5-67
Dr. Hctor Quevedo Uras
+
2 2
z = [( X 1 - X 2) - (1 - 2)] / 1 2
(5-33)
n
1 n 2
Donde:
X 1, X 2 = promedios de muestras uno y dos, respectivamente
21, 22 = varianzas de muestras uno y dos respectivamente
( X 1 X 2) = estimador puntual de (1 2)
n1 y n2 = tamaos de muestras uno y dos, respectivamente
z = variable normal estndar
Si se asume que 1 = 2 = , la estadstica de arriba se reduce a:
1 1
z = ( X 1 X 2) (1 2) / + (5-34)
n n 1 2
Las funciones para las pruebas de hiptesis nulas y las alternativas, son:
Ho:1 - 2 = 0 es decir, que 1 = 2
H1: - 2 0 y H2:1 - 2 > y H3:1 - 2 <
Aqu, aunque puede ser cualquier valor constante, muchas veces el valor de es de
0 y se prueba la hiptesis nula de no "diferencia", es decir Ho:1 = 2.
Ejemplo #44. Para medir la calidad del aire de cierta zona industrial, con relacin a
los xidos de azufre, se sacaron dos muestras de tamaos 50 y 75, respectivamente.
Los promedios fueron de 76 mg/L y de 82 mg/L, respectivamente. Asumir que las
varianzas de estas poblaciones son conocidas e iguales a 16. Asumir un nivel de
significancia de = .05. Usando el valor de p, probar que no hay deferencias entre las
dos poblaciones muestreadas, que es lo mismo que 1 = 2, esto es, 1 2 = 0
Solucin:
1. Usamos la funcin de z, porque las muestras son grandes.
2. Las hiptesis nulas y alternativas, son, respectivamente:
5-68
Dr. Hctor Quevedo Uras
Ho:1 2 = 0 y H1:1 2 0
3. Los valores crticos correspondientes a las regiones crticas, con = .05 son de
1.96.
4. Los valores que se substituyen en la frmula (5-34) son:
X 1 = 76, X 2 = 82, n1 = 50, n2 = 75, 1 = 2 = 16. Substituyendo estos valores en la
frmula (5-34) nos dan:
1 1
z = [( X 1 X 2) (1 2)] / +
n n
1 2
1 1
= [(76 82) 0] / 16] + = 2.05
50 75
5-69
Dr. Hctor Quevedo Uras
efectos secundarios entre el grupo que toma la droga y el que no la toma. (Nota: En
este problema, de acuerdo al autor de este libro de estadstica, el uso de medicamentos
artificiales siempre causar efectos secundarios. Esto se debe a qu, el cuerpo es una
esencia natural, que no puede aceptar artificialismos, por ser antagnicos al diseo
natural del organismo humano. Adems, el medicamento artificial ataca un efecto
reactivo (el sntoma de la enfermedad), ms no su origen causal (vida antinatural). En
verdad, el efecto secundario es una reaccin orgnica natural, en respuesta a la accin
incompatible del artificialismo mdico. De cualquier manera, para este problema usar
el nivel de significancia de = .05. Los clculos de las variables y sus valores se dan
en la tabla de abajo.
TABLA 5.6. Tabla mostrando los datos del Ejemplo #45.
_________________________________________________________________
Grupo de tratamiento Grupo de control
_________________________________________________________________
n1 = 50 n2 = 100
X 1 = 203.4 X 2 = 189.4
1 = 39.4 2 = 39.0
_________________________________________________________________
5-70
Dr. Hctor Quevedo Uras
+
2 2
z = [( X 1 - X 2) - (1 - 2)] / 1 2
n1 n 2
39.42 39.02
= [(203.4 - 189.4) - (0)] / + = 2.06
50 100
5-71
Dr. Hctor Quevedo Uras
Solucin:
Los dos promedios son independientes y 1 y 2 son conocidos, por lo tanto, usamos
5-72
Dr. Hctor Quevedo Uras
+ +
2 2 2 2
( X 1 - X 2) - z/2 1 2
< (1 - 2) < ( X 1 - X 2) + z/2 1 2
(5-35)
n1 n
2 n1 n
2
Donde:
z/2 es el valor de z con = 0.05 y 0.01 niveles de significancia
5-73
Dr. Hctor Quevedo Uras
5-74
Dr. Hctor Quevedo Uras
+
2 2
z = [( X 1 X 2) (1 2)] / 1 2
n1 n
2
= 6 / 0.529
= 11.34
Pruebas de hiptesis para proporciones
Las pruebas de hiptesis relacionadas con proporciones (porcentajes) se requieren en
muchas reas de la ingeniera. Por ejemplo, las compaas constructoras estn
interesadas en saber, qu proporcin de sus productos salen defectuosos. Adems, los
polticos estn interesados en saber qu fraccin de los votantes los favorecern.
Por otro lado, en la ingeniera ambiental estamos interesados en saber qu
fraccin de las industrias estn cumpliendo con las legislaciones ambientales.
Tambin, es de inters social saber qu fraccin de los jvenes universitarios
usan determinadas drogas. Igualmente, es de inters saber qu fraccin o proporcin
de personas que puedan estar conscientes de la magnitud del problema de la
contaminacin ambiental, etc.
Las pruebas de hiptesis con la estadstica p (que estima a ) de proporcin
estn basadas en una muestra aleatoria de tamao n de la poblacin muestreada. Si el
tamao de la muestra n es pequeo, con relacin al tamao poblacional, el promedio
X tiene aproximadamente una distribucin binomial. Adems, si n es grande, el
5-75
Dr. Hctor Quevedo Uras
5-76
Dr. Hctor Quevedo Uras
5-77
Dr. Hctor Quevedo Uras
(0.5)(0.5)
= (0.48 0.5) / = -1.79
1998
5-78
Dr. Hctor Quevedo Uras
5-79
Dr. Hctor Quevedo Uras
el resto proceder como arriba. Para las grficas hacer lo mismo que arriba.
Similarmente, para calcular los valores de la distribucin Gamma:
Calc > Probability distributions > Gamma
Proceder en forma anloga a como se hizo con la funcin Weibull
Ejemplo #51. Calcular las siguientes probabilidades bajo la curva normal estndar
usando el paquete de computadora Minitab:
(a) Entre z = -1.5 y z = -1
(b) P(z 2)
(c) Entre z = 1 y z = -1
(d) Hacer una grfica
Solucin:
Abrir el programa Minitab y seguir las instrucciones correspondientes. Esto generar
una tabla de abajo.
TABLA 5.8. Valores de la variable aleatoria X y la cpd. (Elaboracin propia)
___________________________________________________________________
Columnas C1 C2
Variable aleatoria z Distribucin de Probabilidad acumulada
1 -4.0 .000032
2 -3.5 .000233
3 -3.0 .001350
4 -2.5 .006210
5 -2.0 .022750
6 -1.5 .066807
7 -1.0 .158655
8 0.0 .500000
9 1.0 .841345
10 1.5 .933193
11 2.0 .977250
12 2.5 .993790
13 3.0 .998650
14 3.5 .999767
15 4.0 .999968
5-80
Dr. Hctor Quevedo Uras
5-81
Dr. Hctor Quevedo Uras
__________________________________________________________________
Columnas C1 C2
Variable aleatoria X Probabilidad acumulada
1 2.5 0.068622
2 2.6 0.123865
3 2.7 0.204508
4 2.8 0.310167
5 2.9 0.434423
6 3.0 0.565577
7 3.1 0.689833
8 3.2 0.795492
9 3.3 0.876135
10 3.4 0.931378
Ahora, para resolver los incisos pedidos por el problema se procede como:
(a) P(X 2.9) = 1 0.3102 = 0.6890 (de la tabla de arriba)
(b) P(2.6 X 3.2) = 0.795492 0.068622 = 0.7269
(c) P(X 3.4) (para resolverse por el lector)
Ejemplo #53. Supongamos que el tiempo promedio que se tarda una sustancia
radiactiva (un istopo radiactivo que tiene el mismo nmero atmico pero diferente
peso molecular) en descomponerse es de = 15 aos; siendo as:
(a) Hacer una tabla con los valores de la funcin exponencial de densidad para los
valores de la variable aleatoria X = 0, 5, 10, 15, 20, 25, 30, 35, 40, 45 y 50 aos.
(b) Graficar las probabilidades individuales y las probabilidades acumuladas en
funcin del tiempo en aos.
(c) Cul es la probabilidad que el istopo tarde en degradarse a lo ms en 5 aos?
(d) La probabilidad de que el istopo tarde en oxidarse en cundo menos 20 aos?
(e) La probabilidad de que el istopo tarde en degradarse entre 20 y 50 aos?
(f) Cunta radiactividad qued despus de 40 aos?
5-82
Dr. Hctor Quevedo Uras
Solucin:
0.06
Radiactividad restante
0.05
0.04
0.03
0.02
0.01
0.00
0 10 20 30 40 50
Tiempo en aos
5-83
Dr. Hctor Quevedo Uras
0.8
Energia liberada
0.6
0.4
0.2
0.0
0 10 20 30 40 50
Tiempo en aos
5-84
Dr. Hctor Quevedo Uras
Ejercicios Captulo 5
5.1. En un muestreo de partculas atmosfricas, el promedio de la muestra fue de 72
micras y la desviacin estndar fue de 15 micras. Determinar las unidades de
desviacin estndar de las partculas que tuvieron valores de:
(a) 60 (-0.80)
(b) 93 (1.4)
(c) 72 micras (0)
5.2. Refirindose al problema anterior, encontrar los valores de la variable aleatoria
normal z correspondientes a:
(a) z = -1
(b) z = 1.6
5.3. En un estudio independiente, dos industrias contaminantes fueron informadas de
que recibieron evaluaciones ecolgicas de variables aleatorias normales estndares de
z de 0.7 y -0.5, respectivamente. Si sus resultados (evaluaciones) fueron de 90 y 74,
respectivamente, y asumiendo que s = 13.32, encontrar el promedio aritmtico, para
ambos casos. ( X = 80.67, X = 60.67) 5.4. Encontrar el rea o la
proporcin de la valores de la variable aleatoria z de la curva normal entre z = 0 y z =
1.2.
5.5. Encontrar el rea entre z = 0.81 y z = 1.94. (0.1828)
5.6. Encontrar la probabilidad de que una z observada se encuentre a la derecha de z =
2.05 y a la izquierda de z = -1.44.
5.7. Determinar el valor o los valores de z cuando:
(a) La probabilidad entre 0 y z es de 0.3770 (1.16)
(b) La probabilidad a la izquierda de z es de 0.8621 (1.09)
5.8. El peso promedio de residuos txicos peligrosos generados por 500 industrias es
5-85
Dr. Hctor Quevedo Uras
de 151 toneladas mtricas, con una desviacin estndar de 15 toneladas. Si los pesos
de los residuos txicos generados por estas industrias estn normalmente distribuidos,
encontrar todo lo siguiente:
(a) Cuntas industrias generan entre 120 y 155 toneladas, inclusive.
(b) Cuntas generan ms de 185 toneladas
(c) Cuntas generan cuando menos 128 toneladas
(d) Cuntas generan igual a 128 toneladas
(e) Cuntas generan ms de 75, pero menos de 100 toneladas
5.9. Si los dimetros de unas chumaceras de una maquinaria estn normalmente
distribuidos, con un promedio de 0.6140 pulgadas y una desviacin estndar de .0025
pulgadas, determinar la probabilidad de que las chumaceras tengan dimetros de:
(a) Entre .610 y .618 pulgadas inclusivamente (0.8904)
(b) > .617 pulgadas (0.1151)
(c) < .608 pulgadas (.0207)
(d) Igual a .615 pulgadas
5.10. Si una muestra aleatoria de anlisis de las concentraciones de demanda
bioqumica de oxgeno de 5 das (DBO5) est normalmente distribuidas, qu
probabilidad hay de que stas difieran del promedio por?
(a) Ms de la mitad de la desviacin estndar
(b) Menos que 0.75 de la desviacin estndar.
5.11. Dada una distribucin normal de precipitaciones pluviales con promedio de 50
mm y s = 10 mm. Encontrar la probabilidad de que X asuma un valor entre 45 mm y
62 mm de lluvia. (0.5764)
5.12. Si el X y s son el promedio y la desviacin estndar de una muestra aleatoria de
anlisis de aguas residuales de concentraciones de nitratos, en mg/L, Cul es la
5-86
Dr. Hctor Quevedo Uras
5-87
Dr. Hctor Quevedo Uras
5.18. Se utilizan medidores para rechazar todo los componentes cuyas dimensiones no
se encuentren dentro del la especificacin dada de 1.50 d. Sin embargo, se sabe que
esta dimensin est normalmente distribuida con un promedio de 1.50 Y una
desviacin estndar de 0.2. Determinar el valor de d para que la especificacin cubra
el 90% de las mediciones.
5.19. Cul es la probabilidad de que:
(a) P(-0.5 < z < 1.25) (0.5859)
(b) El valor de z no est entre estos dos valores? (0.4144)
5.20. En un estudio de ingeniera de higiene industrial y seguridad, el supervisor de
produccin encuentra que, los trabajadores, en promedio, completan una tarea en 10
minutos cuando estn expuestos a altas concentraciones de gases. Los tiempos
requeridos para completar la tarea son aproximadamente normales con una desviacin
estndar de 3 minutos. Encontrar lo siguiente:
(a) La proporcin de empleados que completan la tarea en menos de 4 minutos.
(b) El % de empleados que requieren ms de 5 minutos en completar la tarea.
(c) La probabilidad de que un empleado, quien acaba de ser asignado a la tarea, la
completar dentro de 3 minutos.
5.21. Se llev a cabo un muestreo y un anlisis de las concentraciones de nitratos
(NO-3) de un sistema de tratamiento de aguas industriales. Las concentraciones de
nitratos se reportaron en mg/L. Los siguientes datos se dan en mg/L en la tabla de
abajo:
5-88
Dr. Hctor Quevedo Uras
Hacer los siguientes clculos corriendo una estadstica descriptiva que incluya:
(a) El promedio muestral, la varianza, la desviacin estndar y el rango. ( X = 7.26,
s2 = 2.02, s = 1.42, rango = 5.3)
(b) Encontrar el error estndar, el sesgo, la kurtosis, el valor mximo y el valor
mnimo. (0.25, 0.08, -.088, 10.1, 4.8)
(c) Evidenciar la simetra de los datos.
(d) Si el lmite de las concentraciones de nitratos en el efluente es de 8.5 mg/L, de
acuerdo a la legislacin ambiental de aguas, hacer una prueba de hiptesis con un
nivel de significancia de = .05 y calcular la probabilidad p e interpretarla
acordemente. (P <<< .0003)
(e) Hacer un intervalo de confianza para el promedio . (6.76, 7.76)
(f) Hacer un intervalo de confianza para la mediana. (6.39, 7.95)
(g) Hacer un intervalo de confianza con nivel de confianza de 95% para la desviacin
estndar poblacional, . (1.14, 1.88)
(h) Encontrar el primer cuartil (6.05)
(i) Encontrar el tercer cuartil. (8.25)
5.22. En un estudio de meteorologa de precipitacin pluvial, el promedio de lluvia
registrado, a la centsima de un centmetro, para el mes de marzo fue de 9.22
centmetros. Asumiendo que estos valores estn normalmente distribuidos con una
desviacin estndar conocida de 2.83 cm., encontrar la probabilidad de que el
5-89
Dr. Hctor Quevedo Uras
5-90
Dr. Hctor Quevedo Uras
5-91
Dr. Hctor Quevedo Uras
5-92
Dr. Hctor Quevedo Uras
Tabla mostrando los resultados del DBO que va quedando y el DBO oxidado o
ejercido. (Elaboracin propia)
X DBO restante DBO oxidado
(Das) (Prob. individual) (Prob. acumulada)
1 .0123 .0124
2 .0122 .0247
3 .0120 .0368
4 .0119 .0488
5 .0117 .0606
5.30. Se da la tabla de abajo con los porcentajes de DBO oxidado en funcin del
tiempo y de la constante de desoxigenacin k. Si el DBO5 ltimo o total es de Lo =
300 mg/L (derivado de la ecuacin monomolecular y = Lo(1 10-kt), hacer lo
siguiente:
(a) Una grfica para ver el efecto de la velocidad de la constante k para un nivel dado
de Lo de la ecuacin monomolecular.
(b) Una grfica que indique el DBO que va quedando y la cantidad de DBO que se
va ejerciendo, para cada uno de los 20 das y para cada una de las tasas k.
(c) Cul es la probabilidad de que la concentracin de DBO est entre 3 y 6 das
inclusivamente, para k = 0.15? A qu concentracin de DBO ascendi esto?
(d) Calcular la concentracin de DBO que qued entre 3 y 5, para k = 0.10.
5-93
Dr. Hctor Quevedo Uras
5.31. Supngase que, el tiempo en horas, requeridas para reparar una bomba de calor
es una variable aleatoria X que tiene un distribucin gamma con parmetros = 2 y
= 0.5.
(a) Encontrar el promedio, la varianza y la desviacin estndar. ( = 1.0, 2 = 0.5)
(b) Cul es la probabilidad de que el siguiente servicio requerir a lo ms una hora
para reparar la bomba?
(c) La probabilidad de que se requieran cuando menos 2 horas para reparar la bomba.
(0.0916)
5.32. En cierta ciudad, el consumo diario de electricidad, en millones de kilowatt-
horas, es una variable aleatoria X que sigue a una distribucin gamma con = 6 y 2
= 12. Encontrar:
(a) Los valores de y .
(b) Encontrar la probabilidad de que en un da dado el consumo diario de electricidad
exceder 12 millones de kilowatt-horas.
5-94
Dr. Hctor Quevedo Uras
5-95
Dr. Hctor Quevedo Uras
2. El promedio del peso del papel descartado cada semana en un estudio de reciclaje
de papel es menor que 10 kilogramos.
3. El tiempo promedio requerido para los estudiantes puedan adquirir su ttulo es
mayor que 5 aos.
4. El promedio anual de ingresos de los mdicos es de $300,000 dlares.
5. El promedio de la edad de los aviones comerciales es de cuando menos 10 aos.
6. La tasa del promedio de consumo de los automviles Chevrolet es de no ms de 17
millas/galn.
Para cada uno de estos ejemplos del 1 al 6, contestar lo siguiente:
(a) Identificar la hiptesis nula, Ho:
(b) Identificar la hiptesis alternativa, H1:
(c)Identificar la prueba si es bilateral, o unilateral izquierda o derecha.
(g) Asumir que la conclusin es de rechazar la hiptesis nula. Declarar la conclusin
en trminos no tcnicos. Asegurarse de enlistar el reclamo original.
(h) Asumir que la conclusin es la de fallar en rechazar la hiptesis nula. Declarar la
conclusin en trminos no tcnicos. Asegurarse de enlistar el reclamo original.
5.37. Calcular el valor de la probabilidad p con niveles de significacin de = 0.05 y
= 0.01. Se dan los siguientes valores: n = 50, X = 31.8 y = 0.75. Probar la
hiptesis nula Ho: 32 contra H1: < 32. (z = -1.89, p = .0294)
5.38. Una muestra aleatoria de 36 casos de anlisis de aguas conteniendo cloratos
(mg/L de ClO3-), se usa el mtodo argentomtrico de titulaciones (Estndar Methods
for the Examination of Water and Wastewater, 1971). Probar la hiptesis de que el
promedio poblacional es igual a 145 mg/L. Se calcula el promedio estadstico y nos
da X = 138.84 con una desviacin estndar de 20. Probar la hiptesis de Ho: = 145
con los niveles de significancia de 0.05 y 0.01. Tambin calcular el valor de p. 5.39.
5-96
Dr. Hctor Quevedo Uras
5-97
Dr. Hctor Quevedo Uras
5-98
Dr. Hctor Quevedo Uras
5-99
Dr. Hctor Quevedo Uras
mediciones de milmetros de lluvia: Ho: = 0.340 mm, H1: 0.340, donde 0.34 = o,
= .05, X = 0.343 mm., = .01, n = 35. (Ntese que aqu es una prueba de 2 colas,
porque Ho: = 0.340 rene la condicin de igualdad). Las regiones crticas son
1.96, porque = 0.05. Ver tabla de abajo. (z = 1.77. Se retiene Ho: con p = .0768)
Tabla mostrando los datos. (Elaboracin propia)
________________________________________________________________
Hiptesis alternativas Rechazar Ho: = 0.340 si:
__________________________________________________________________
H1: < o = 0.3430 z < - z
H1: > o = 0.343 z > + z
H1: o = .0.343 z < - z/2 o z > z/2
__________________________________________________________________
5.50. Una muestra aleatoria de 100 muertes en E. U. mostr una vida promedio de
5-100
Dr. Hctor Quevedo Uras
71.8 aos con una desviacin estndar de 8.9 aos. Pudiera esto indicar que la vida
promedio de hoy en da es mayor que 70 aos? Usar = .05.
5.51. Un fabricante de cables de acero afirma que su producto tiene una resistencia de
ruptura de 8.0 Kg. Probar la hiptesis nula de que Ho: = 8.0 Kg., contra la prueba
alternativa de que H1: 8.0 Kg. Para esto, se sac una muestra aleatoria de 50
cables y se encuentra que tiene una resistencia promedio de X = 7.8 Kg., con una
desviacin estndar de 0.5 Kg. Para esta prueba usar = .05 y = .01. (p = .0046)
5.52. En un estudio de la aplicacin del pH (potencial hidrgeno que tiene una escala
de 0 a 14, donde 7 es neutral y abajo de 7 es cido y arriba de 7 es alcalino) para
medir la alcalinidad y la acidez de soluciones, un cientfico, dedicado al estudio de la
contaminacin ambiental, asegura que dos muestras de soluciones (A y B) provienen
del mismo lugar de un ro, donde supuestamente hubo un descarga industrial de cido
clorhdrico (HCl). Si esto fuera cierto, entonces el pH de las dos muestras de
soluciones seran iguales. Asumiendo que las observaciones provienen de
poblacionales normales, probar la hiptesis nula de igualdad de los promedios de pH.
Asumir = 0.05. Hacer las siguientes estimaciones:
(a) Hacer estos clculos usando la distribucin normal y la distribucin de t de
Estudiante.
(b) Tambin, calcular el valor de la probabilidad p en ambos casos y ver que
diferencias hay.
(c) Hacer intervalos de confianza usando las frmulas para la distribucin z y para la t
de Estudiante.
(d) Desaprueban los datos la afirmacin del cientfico? La tabla de abajo muestra la
informacin requerida para este problema.
5-101
Dr. Hctor Quevedo Uras
Tabla mostrando los datos de las mediciones del pH. (Elaboracin propia)
5-102
Dr. Hctor Quevedo Uras
5-103
Dr. Hctor Quevedo Uras
5-104
Dr. Hctor Quevedo Uras
5-105
Dr. Hctor Quevedo Uras
diferencias en las dos mediciones de pH de esos aos 1976 y 1981. Los datos se dan
en la tabla de abajo. Asumir que las varianzas de las dos poblaciones son iguales.
Usar un nivel de significacin de 0.05 y calcular el valor de la probabilidad p en la
toma de decisiones. (Statistics for Environmental Sciences and Management, por
Bryan Manly, p. 8).
5-106
Dr. Hctor Quevedo Uras
5-107
Dr. Hctor Quevedo Uras
Sugerencia: Usar la funcin estadstica para pruebas de hiptesis para las diferencias
de dos promedios.
5.63. El presidente de cierta compaa fabricante de partes de automvil afirma qu,
el nmero promedio de partes vendidas, diariamente, es de 1500. El director general
de toda la cadena de establecimientos quiere comprobar esta afirmacin. Para esto, se
toma una muestra aleatoria consistente en 36 das, la cual mostr un promedio de
1450 partes. Asumir que se conoce el valor de = 120 partes. Usar = 0.05. Calcular
el valor de la prueba no tradicional, es decir, usando el valor de p. Qu se puede
concluir acerca de esta situacin? (z = -2.5 y se rechaza Ho:)
5.64. Jay Devore autor del libro Probabilidad y Estadstica para Ingeniera y
Ciencias (2201) discute el problema relacionado con el anlisis de una muestra
aleatoria de n1 = 20 especimenes de acero laminado en fro, para determinar su
resistencia, dando, como resultado, una resistencia promedio muestral de X 1 = 29.8
ksi. Una segunda muestra aleatoria de n2 = 25 especimenes de acero galvanizado de
dos lados dio una resistencia promedio muestral de X 2 = 34.7 ksi. Si se supone que
las dos distribuciones de resistencia de los aceros son normales con 1 = 4.0 y 2 = 5.0
ksi (sugeridas por una grfica en el artculo Sinc-Coated Sheet Steel: An Overview,
Automotive Engr., diciembre de 1984, pp. 39-43).
(a) Significan estos datos que las verdaderas resistencias promedio 1 y 2 son
diferentes?
(b) Calcular el valor de p.
(c) Tambin hacer un intervalo de confianza para los dos promedios poblacionales.
Realizar la prueba de hiptesis con = 0.01.
5.65. En un estudio de higiene industrial y seguridad en carreteras estatales, al
seleccionar un concreto de azufre para construir una carretera, es importante escoger
5-108
Dr. Hctor Quevedo Uras
un concreto con bajo valor de conductividad trmica, para reducir al mnimo los
daos ocasionados por cambios de temperatura y, as, evitar accidentes
automovilsticos en las carreteras. Supngase que hay dos tipos de concreto, uno es
un agregado escalonado y el otro no tiene agregados finos considerados para cierta
carretera. La tabla de abajo resume los datos de un experimento realizado para
comparar los dos tipos de concreto. Sugiere esta informacin que el verdadero
promedio de conductividad del concreto, con agregado escalonado supera al del
concreto sin agregado fino? ( Probabilidad y Estadstica para Ingeniera y Ciencias,
J. L.Devore, 2000). (3.36, p = .0004)
5-109
Dr. Hctor Quevedo Uras
Da | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
No. de vehculos |1150 1225 1195 1195 1210 1100 1150 1195 1105 1205 1121 1190 1195 1192 1100 1201 1090 1095
5-110
Dr. Hctor Quevedo Uras
5-111
Dr. Hctor Quevedo Uras
5-112
Dr. Hctor Quevedo Uras
(b) A medida que n disminuye y s disminuye, el valor del error estndar aumenta y,
por lo tanto, el valor de p disminuye.
(c) A medida que n aumenta y las tcnicas del laboratorio se refinan causando una
varianza pequea, el error estndar del promedio baja y, por consiguiente, el valor
de p aumenta y la hiptesis nula se rechaza.
(d) A medida que el error estndar del promedio disminuye por tamaos de
muestra grandes, con pequeas variaciones, esto conlleva a un valor pequeo de p
mucho muy significante, lo cual nos lleva a retener la hiptesis nula.
(e) A medida que la varianza disminuye, con n constante, el valor de p disminuye y
la hiptesis nula se rechaza.
(f) A medida que n aumenta y las tcnicas del laboratorio se refinan causando una
varianza pequea, el error estndar baja y, por consiguiente, el valor de p
disminuye y se retiene Ho:
(g) A medida que n aumenta y las tcnicas del laboratorio se refinan causando una
varianza pequea, el error estndar baja y, por consiguiente, el valor de p
disminuye y se acepta HA:
(h) los incisos (d), (e) y (f) son correctos
(i) Los incisos (e) y (g) son correctos
5.79. Actualmente, hay mucho debate, por saber si las emisiones de campos
electromagnticos producidos por telfonos mviles (celulares) y sus estaciones de
antenas base puedan estar afectando la salud. Con ms de 500 millones de
telfonos mviles en todo el mundo, de acuerdo a al artculo Examining the effects
of electromagnetic fields emitted by GSM mobile phones on human event-related
potentials and performance during an auditory task publicado en Clinical
Neurophysiology 115 (204) 171- 178 (http://www.wow-com.com/industry/stats),
5-113
Dr. Hctor Quevedo Uras
5-114
Dr. Hctor Quevedo Uras
MHz, 195 MHz, 80,000 Hz, 30,000 Hz y 500 Hz, respectivamente. Sus respectivas
desviaciones estndares fueron 50 MHz, 40 MHz, 35 MHz, 80 MHz, 100 MHz,
20,000 Hz, 10,000 Hz y 100 Hz. El estudio se llev a cabo durante todo un ao, en
un esfuerzo por evaluar variables, como la distancia, la altura, poca del ao,
factores meteorolgicos (como temperatura, presin atmosfrica, intensidad y
direccin del viento, humedad relativa), contaminacin del aire por partculas y
gases, etc., que pudieran afectar el poder de la densidad de la radiacin
electromagntica emitida. Para resolver este problema estimar el modelo
matemtico que mejor ajuste los datos. Una vez que se evale el modelo
acordemente, predecir la radiacin de microondas a una distancia de 10 y 1000
metros de la antena base. Si hubiese valores atpicos extremos, enlistar tres
posibles factores que puedan explicar estas situaciones.
5-115
Dr. Hctor Quevedo Uras
CAPITULO 6
Distribuciones de t de Estudiante, JI cuadrada y F
Propiedades de la distribucin de t de Estudiante.- Intervalos de confianza para
el promedio poblacional .- Prueba de hiptesis para .- Prueba de t pareada
para detectar diferencias entre dos tratamientos.- Prueba de t para probar la
hiptesis de dos promedios, cuando las varianzas son iguales.- Prueba de t para
probar la hiptesis de dos promedios cuando las varianzas son desiguales.-
Mecanismos para calcular el valor de p cuando se hacen pruebas de hiptesis no
tradicionales.- Intervalos de confianza y pruebas de hiptesis con la JI cuadrada,
(2).- Aplicacin de la JI cuadrada en cuanto a la prueba de bondad de ajuste
comparando las frecuencias observadas y las frecuencias tericas.- Distribucin
F y su aplicacin en la comparacin de varianzas muestrales.-
Aqu, discutiremos la distribucin de t de Estudiante, que est relacionada con la
teora de muestreo pequeo. Tambin, discutiremos la distribucin de JI cuadrada y
la distribucin de F.
En los captulos anteriores hicimos hincapi de que, para muestras que fueran
30 casos, se usa la distribucin normal. Sin embargo, para muestras menores que
30 observaciones se usa lo que se llama teora de muestreo pequeo, que est
relacionada con la distribucin de t de Estudiante, con la JI cuadrada o con la
distribucin F. La distribucin de t se nombr despus de W.S. Gosset, quien us el
seudnimo de estudiante.
Por ejemplo, cuando usamos la distribucin normal siempre se conoce el valor
de , el tamao de la muestra es > 30 y se sabe que la distribucin muestreada es
normal. Pero cuando usamos la distribucin de t de Estudiante, no se conoce y el
tamao de la muestra es menor que 30 casos, sin saber si la distribucin muestreada
6-1
Dr. Hctor Quevedo Uras
6-2
Dr. Hctor Quevedo Uras
6-3
Dr. Hctor Quevedo Uras
6-4
Dr. Hctor Quevedo Uras
aleatoriamente, y, con varianzas iguales o desiguales. Aqu, cabe notar que, si se trata
de comparar los promedios de ms de 2 distribuciones, entonces se usa el anlisis de
varianza simple o mltiple.
Descripcin de las funciones usadas con la distribucin de t de Estudiante
Estadstica descriptiva:
n
Promedio: X = Xi / n (6-2)
x=0
6-5
Dr. Hctor Quevedo Uras
( X 1 - X 2) - (1 - 2)
t = (6-7)
s2p (1/n1 + 1/n2)
Donde:
X 1, X 2 = promedios aritmticos de las dos distribuciones
n1, n2 = tamaos de las dos muestras
1, 2 = parmetros de poblacin uno y dos a estimarse
s2p = (1 s12 + 2 s22) / (1 + 2)
Donde:
s2p = la varianza combinada de las dos muestras
1, 2 = grados de libertad de muestras uno y dos
6-6
Dr. Hctor Quevedo Uras
Nota importante: las diferencias entre las funciones de t (6-6), (6-7), y (6-8) se basan
en el mtodo de la seleccin al azar que se sigue. Por ejemplo, en la funcin (6-6), el
mtodo de seleccin en el emparejamiento de los pares de las observaciones de las
distribuciones es deliberado. Sin embargo, en el caso de las funciones (6-7) y (6-8),
con relacin a la funcin (6-6), la seleccin es completamente aleatoria, sin hacer
emparejamientos. Adems, las diferencias entre el uso de las funciones (6-6), (6-7), y
(6-8) es de que en el caso de la (6-6), el tamao de las muestras pares debe de ser
igual. En contraste, las funciones (6-7) y (6-8) pueden usarse con tamaos de
muestras desiguales. Tambin, con respecto a la uso de las funciones (6-7) y (6-8),
stas estn relacionadas con la condicin de igualdad o desigualdad de las varianzas.
La funcin (6-7) requiere que las varianzas sean iguales y la funcin (6-8) no. Ahora
bien, para hacer un decisin sobre cual de las dos funciones, (6-7) o (6-8) se vaya a
6-7
Dr. Hctor Quevedo Uras
usar, la manera de saber si las varianzas son iguales o desiguales, se puede deducir
haciendo una prueba de igualdad de varianzas con la distribucin F, esto es, usando la
funcin de F = s21 /s22.
Tipos de criterios que se siguen para establecer las pruebas de hiptesis
(anlogos a los de la distribucin normal)
1. La hiptesis nula se puede hacer como: Ho: = o. Bajo estas condiciones de
igualdad, las hiptesis alternativas son:
H1: o, H2: < o y H3: > o. Donde o es el promedio poblacional que se quiere
probar. Aqu, cabe notar que en este caso, la prueba de hiptesis es bilateral o de dos
colas.
2. Tambin la hiptesis nula se puede hacer como: Ho: o. En este caso, la
hiptesis alternativa es Ho: < o. Aqu, la prueba de hiptesis es unilateral izquierda.
3. Igualmente, la hiptesis nula se puede hacer como: Ho: o. En este caso la
hiptesis alternativa es H1: > o. Aqu, la prueba de hiptesis es unilateral derecha.
4. Seleccionar un nivel de significacin de tamao , esto es, = .05 o = .01 con sus
respectivos niveles de confianza de 95% y 99%. Tambin, se pueden usar otros
niveles de significacin, como el .10, .20, etc., pero los ms comunes son los de 0.05
y .01.
5. Seleccionar la estadstica apropiada (por ejemplo, si n > 30 casos se usa la
distribucin z. Si la muestra es n < 30 casos y la poblacin muestreada no es normal
se usa la distribucin de t de Estudiante, la distribucin de Ji cuadrada, la distribucin
F, etc.
6. Se establecen las regiones crticas usando niveles de confianza del 95%, 99%, 90%,
80% etc. (95% y 99% los ms comunes)
7. Se estima el valor de la prueba de estadstica de la muestra y se compara con el
6-8
Dr. Hctor Quevedo Uras
valor de la estadstica calculada, es decir, zcalc. o tcalc. (De las regiones crticas) y se
comparan con ztab. o ttab. Si la estadstica calculada es mayor que la estadstica tabulada
(de las regiones crticas) se rechaza la hiptesis nula). De otra manera, se acepta la
hiptesis o no se hace ninguna decisin. De esta manera, si el valor de la estadstica
calculada se mete en las regiones crticas se rechaza la hiptesis nula (o tambin si el
valor de p es menor o igual al nivel de significacin, deseado).
Nota: Aqu es importante recordar que, la prueba de hiptesis nula estadstica se
dise el siglo antepasado. En tiempos modernos de la era ciberntica, existe la
prueba no tradicional relacionada con el valor de la probabilidad p. Tambin es
importante notar que muchos programas de computadora dan nicamente el valor de
p y el investigador tiene que interpretarlo acordemente.
Mecanismos que se siguen para calcular el valor de la probabilidad p usando las
tablas de las distribuciones de t de Estudiante, la JI cuadrada o la distribucin F
Aqu, para calcular el valor de la probabilidad p se puede hacer usando la funcin t es
decir, haciendo interpolaciones aplicando una frmula emprica diseada por el autor
de este libro, el Dr. Hctor Quevedo Uras y auxiliado por la Dra. Socorro Arteaga.
(2 1) / (t2 t1) = (2 - X) / (t2 tcalc.) (6-10)
Donde:
2 = el nivel de confianza ms alto de la tabla de la t de Estudiante
1 = el nivel de confianza ms bajo de la tabla de la distribucin de t
t1 = la probabilidad correspondiente a 1
t2 = la probabilidad correspondiente a 2
X = valor desconocido de
tcalc.= valor de la estadstica de la distribucin de t, con el nivel significante deseado,
e.g., = .05 o = .01
6-9
Dr. Hctor Quevedo Uras
6-10
Dr. Hctor Quevedo Uras
6-11
Dr. Hctor Quevedo Uras
6-12
Dr. Hctor Quevedo Uras
6-13
Dr. Hctor Quevedo Uras
6-14
Dr. Hctor Quevedo Uras
Donde:
2 = .99975, t2 = 4.499, 1 = .9995, t1 = 4.14, tcalc. = -4.3 (aqu en este caso, se toma
el valor absoluto), X igual a valor buscado el cual corresponden a la interpolacin
de t = -4.3 con = 14 g.l.
Sustituyendo los valores en la frmula de arriba da:
(.99975 .9995)/(4.499 4.14) = (.99999 - X)/(4.499 4.3)
X = 0.99987 y el valor de p es p = 2(1 - .99999) = 0.00002. Este valor es mucho muy
significativo y apoya, muy contundentemente, la contencin de que el promedio no es
mayor que 34.5.
(b) Probando la hiptesis nula de Ho: 34.5 contra H1: < 34.5
La t calculada es la misma que en la parte (a), es decir, - 4.3. Esta es una prueba
unilateral izquierda con = 0.5 con el valor porcentual de t.95;14 = - 1.761 o sea que la
regin crtica izquierda es 1.761 (de la tabla de la distribucin de t). Para hacer una
decisin de rechazar o de aceptar Ho: se compara el valor de t.95;14 = 1.761 con tcalc. =
4.3 y vemos, nuevamente, que se introduce en el extremo izquierdo de la
distribucin, por lo tanto, se rechaza la hiptesis. El valor de la probabilidad p se
calcula buscando el valor absoluto de |-4.3| en la tabla con = 0.05 y vemos que est
entre 4.499 y 4.14 con sus respectivos valores de igual a .99975 y .9995. Es decir
que el valor de p est entre .00025 < p < .0005, con un valor de p .0002.
(c) Para probar la hiptesis de Ho: 33.2 contra la hiptesis alternativa de H1: >
33.2, se usa la estadstica de t de Estudiante, es decir:
t = (33.8 33.2)/0.63/3.87 = 3.68
La regin crtica derecha es t.95;14 = 1.76 y vemos que 3.68 es mayor que este valor y
se rechaza la hiptesis nula. Bajo estas condiciones, el valor de la probabilidad p es
0.001.
6-15
Dr. Hctor Quevedo Uras
Ejemplo #5. Un fabricante de llantas afirma qu, la vida promedio de cierto tipo de
neumtico, es mayor que 25,000 kilmetros, bajo condiciones normales de manejo y,
para vehculos de cierto peso. Para esto, se saca una muestra aleatoria de 15 llantas y
se calcula un promedio aritmtico y una desviacin estndar de 27,000 y 3,000,
kilmetros, respectivamente. Asumir que = 0.05 y que la poblacin de llantas est
normalmente distribuida Se puede concluir de esta informacin que la contencin
del fabricante de llantas es legtima? Para resolver este problema hacer lo siguiente:
(a) Establecer las pruebas de hiptesis nula y alternativa
(b) Establecer la(s) regin(es) crtica(s)
(c) Calcular el valor de la estadstica
(d) Calcular y graficar el valor de p.
Solucin:
(a) El problema est preguntando si se puede concluir que es mayor que 25,000
kilmetros. Por lo tanto, una afirmacin de este efecto deber ir en la prueba de
hiptesis alternativa. Las hiptesis apropiadas son:
Ho: 25,000 y H1: > 25,000
(b) La regin crtica con = 0.05 es: t0.95;14 = 1.7613
(c) El valor calculado de la estadstica t con X = 27,000, error estndar = 774.61, n =
15 y o = 25,000 es:
t = (27,000 25,000) / 3000/15
= 2.58
(d) Para encontrar el valor de la probabilidad p se procede de la siguiente manera: Se
busca t = 2.58 en la tabla de la distribucin de t con = 14 grados de libertad, y
vemos que este valor est entre 2.624 y 2.1448, con sus respectivos percentiles de
0.10 y 0.025. De esta manera, si la hiptesis nula Ho: es cierta, entonces, la
6-16
Dr. Hctor Quevedo Uras
Ejemplo #6. Para probar la eficiencia de una planta de tratamiento lodos activados se
midi la concentracin del DBO5 en la entrada y en el efluente (salida). Se requiere
saber qu tan eficiente es este sistema de tratamiento del drenaje.
6-17
Dr. Hctor Quevedo Uras
Solucin:
Usando los valores de la TABLA 6.0 sacamos las diferencias entre las
concentraciones en la entrada y en el efluente. Esto se muestra en la tercera columna
de la tabla. Una vez hecho esto, se calcula el promedio aritmtico de las diferencias
(que es igual a D ) y la desviacin estndar (que es igual sd), el error estndar, etc.
1. Usando un paquete de computadora se calcula el valor del promedio D = X =
36.37, la desviacin estndar que es igual a sd = 22.95, n = 10, error estndar = 7.26
2. La prueba de hiptesis nula es de Ho: = 0 o sea que no hay diferencias entre el
6-18
Dr. Hctor Quevedo Uras
6-19
Dr. Hctor Quevedo Uras
6-20
Dr. Hctor Quevedo Uras
TABLA 6.1. Tabla mostrando los datos del problema. (Elaboracin propia)
Sin fusin (en libras por pulgada cuadrada)
2748 2700 2655 2822 2511 3149 3257 3213 3220 2753
2
n1 = 10 X 1 = 2902.8 s1 = 277.2 s 1 = 76,875.99
__________________________________________________________________
Con fusin (en libras por pulgada cuadrada)
3027 3356 3359 3297 3125 2910 2889 2902
n2 = 8 X 2 = 3108.1 s2 = 205.9 s22 = 42382.41.
__________________________________________________________________
Solucin:
(a) La prueba de hiptesis nula es: Ho: = 0 o sea que no hay diferencias entre las
tensiones, para los dos tratamientos.
Las pruebas de hiptesis alternativas son H1: > 0 y H2: < 0.
(b) La regin crtica es unilateral izquierda es igual a -1.75
(c) Se usa la funcin estadstica de t para varianzas desiguales. Es decir, cuando se
usan dos muestras aleatorias independientes de poblaciones normales, con varianzas
desiguales. Esta estadstica de la funcin de t, algunas veces se llama prueba de
Smith-Satterthwaaie abajo mostrada. (Miller et al. 1976, p. 261)
Sustituyendo los valores en la ecuacin (6-7) da:
3108.10 2925.33
t =
(277.3)2/10 + (205.9)2/8
= - 1.86
6-21
Dr. Hctor Quevedo Uras
Y sustituyendo todos los valores de: s21 = 76,875.96, n1 = 10, s22 = 42,382.41, n2 = 8
da:
[(76,875.96)/(10) + 42,382.41/(8)]2
=
[(76,875.96)/10)2/9) + (42,382.41/8)2/7]
= 16 grados de libertad
(d) Conclusin: se rechaza la prueba de hiptesis nula de no diferencias en las
resistencias a la tensin debido a que el valor de la estadstica t = -1.86 es menor que
la regin crtica izquierda de -1.75.
(e) Para hacer la prueba de hiptesis no tradicional se busca el valor absoluto de la t
calculada, es decir, |-1.86| en la tabla de la distribucin de t de Estudiante con 16
grados de libertad y vemos que los valores percentiles son de 0.025 y 0.05 con sus
puntos porcentuales de 1.746 y 2.120. Entonces, el razonamiento que se sigue para
calcular el valor de p es como sigue. Si Ho: es verdadera, la probabilidad de obtener
un valor de t tan grande o ms grande que 1.746 es 0.025. Adems, la probabilidad de
obtener un valor tan grande o ms grande que 2.120 es de 0.05. Por lo tanto, si Ho: es
verdadera, la probabilidad de obtener un valor tan grande o ms grande que el valor
de -1.86 est entre 0.025 y .05. Para esta prueba en particular, 0.05 > p > 0.025.
Ejemplo #8. Supngase que se saca una muestra de 8 mediciones de nitratos (NO3-) y
se calcula un valor de t = - 3.62, con un nivel de significancia de = 0.05. Probar la
6-22
Dr. Hctor Quevedo Uras
6-23
Dr. Hctor Quevedo Uras
6-24
Dr. Hctor Quevedo Uras
6-25
Dr. Hctor Quevedo Uras
La figura de abajo muestra una prueba bilateral. Para encontrar el valor crtico
izquierdo, se refiere a la tabla de la JI cuadrada y se busca = 9 en la columna
izquierda de la tabla y se va hasta la columna 0.975, porque el rea total a la
derecha de este valor es 0.975 que lo sacamos restando 0.025 de 1 y nos da 2 =
2.700. Similarmente, para la regin crtica derecha, se localiza el valor de = 9 y
nos movemos hacia el valor de 0.025 y da 2 = 19.023. La Figura 6.4 de abajo
muestra esta situacin.
20.975;9 = 2.70 20.025;9 = 19.023
Figura 6.4. Grfica mostrando los valores crticos de la distribucin, con un rea de
0.025 en cada cola, con n = 10 y = n 1 = 10 1 = 9. Fuente: Triola (1995)
6-26
Dr. Hctor Quevedo Uras
Ejemplo #10. Encontrar los valores crticos de 2 por los cuales el rea del extremo
derecho de la distribucin es de 0.05, si:
(a) = 15
(b) = 21
Solucin:
(a) El valor de la cola derecha de la distribucin de JI cuadrada se busca en la tabla
de esta distribucin y es: 2;n-1 = 2.05;16-1 = 2.05;15 = 24.996
(b) El valor de la cola derecha es de 2.05;21 = 32.7
Ejemplo #11. Para una distribucin de JI cuadrada con 12 grados de libertad,
encontrar el valor de 2 de tal manera que:
(a) El rea a la derecha de 2 es .05,
(b) El rea a la izquierda de 2 es .99
Solucin:
(a) 2.05;12 = 21.026
(b) 2.01;12 = 26.22
Ejemplo #12. Encontrar los valores crticos de 2 por los cuales el rea a la derecha
de la distribucin es de = .01, si = 5:
Solucin:
Si el rea sombreada sobre la derecha es .010, el rea a la izquierda de 22 es .99 y
22 representa el 99avo percentil, 2.99, el cual es igual a 15.1.
Intervalos de confianza y pruebas de hiptesis usando la distribucin de JI
cuadrada 2
El intervalo de confianza 1 para la varianza poblacional, 2 se da como:
(n 1) s2 / 2[1-/2;n-1] < 2 < (n 1)s2 / 2[/2;n-1] (6-14)
Ejemplo #13. Si una muestra aleatoria estadstica de 17 mediciones tiene una
6-27
Dr. Hctor Quevedo Uras
6-28
Dr. Hctor Quevedo Uras
6-29
Dr. Hctor Quevedo Uras
Ejemplo #15. En un estudio de ahorro de energa elctrica (lo que ocasionara que
hubiera menos contaminacin del medio ambiente) se observa qu, la varianza
(poblacional) del consumo es de 28.0 kWh. Se decide poner focos fluorescentes y
apagar las luces cuando no se usen, para ver si hay una reduccin en la variacin
del consumo. Para esto se saca una muestra aleatoria de 26 consumos de energa, y
se estima una varianza muestral de 16.0 kWh. Usar un nivel de significancia de =
0.05, y probar que la varianza del consumo de energa se ha reducido, bajo las
condiciones dadas. Tambin hacer una prueba de hiptesis no tradicional
calculando el valor de la probabilidad p e interpretarla, acordemente.
Solucin:
1. La prueba de hiptesis nula es Ho:2 = 28.0. La prueba de hiptesis alternativa es
6-30
Dr. Hctor Quevedo Uras
6-31
Dr. Hctor Quevedo Uras
Aqu se nota qu, las pruebas de hiptesis nulas son siempre unilaterales
derechas. Tambin, es de notarse que se puede usar la prueba de Kolmogorov-
Smirnov en las pruebas de bondad de ajuste.
Descripcin de la estadstica de 2 usada para la prueba de bondad de ajuste
2 = (o1 e1)2 / e1 + (o2 e2)2 / e2 +...+ (ok ek) / ek (6-16)
k
2 = (oj ej)2 / ej (6-17)
j=1
Donde:
2 = estadstica usada para la prueba de bondad de ajuste
o = frecuencias observada
e = frecuencia esperada
k = nmero de categoras diferentes de un resultado
n = nmero total de casos o tamao de la muestra
= k 1 = nmero de grados de libertad
Nota: En algunas ocasiones, si se van a acomodar los datos por distribuciones
tericas, como la binomial, se usa la relacin = k 1 m (Spiegel, 1961).
Cuando se usa la prueba de bondad de ajuste, el criterio para rechazar o
retener la hiptesis nula es que, si 2 = 0, entonces, las observaciones tericas y las
observadas son iguales. Pero, si 2 > 0, entonces, las frecuencias tericas y las
observadas no son iguales. Esto quiere decir que, si el valor de la estadstica 2calc. >
2tab., entonces, se rechaza la hiptesis nula; de otra manera, se retiene Ho:.
Suposiciones para hacer las pruebas de bondad de ajuste
1. Los datos muestrales consisten de conteos de frecuencia de diferentes categoras, k
de muestras aleatorias.
2. Para cada una de las categoras k, la frecuencia esperada es de cuando menos 5.
6-32
Dr. Hctor Quevedo Uras
f(2)
0 2
Figura 6.6. Regla de decisin estadstica mostrando la regin crtica y la regin de
aceptacin, para la prueba de bondad de ajuste, es decir, usando la distribucin de
JI cuadrada. (Elaboracin propia)
Accidentes observados| 31 42 18 25 31
6-33
Dr. Hctor Quevedo Uras
Solucin:
Los datos calculados y los resultados de la prueba de hiptesis se dan abajo.
TABLA 6.5. Clculos para la prueba de bondad de ajuste. (Elaboracin propia)
5
2 = (o e)2 / e = (0.0871) + (5.400) + (4.4204) + (0.6585) + (0.8711) = 10.65
j=1
La prueba de hiptesis nula dice que no hay diferencias entre las frecuencias
observadas y las esperadas (los accidentes si ocurren con la misma frecuencia). La
regin crtica es del extremo derecho, con = k 1 = 5 1 = 4 grados de libertad.
La estadstica tabulada es de 2; = 2.05;4 = 9.49. En conclusin, debido a que el
valor de 2 = 10.65 > 2tab. = 9.49, se rechaza la hiptesis nula, y se dice que si hay
diferencias entre las frecuencias observadas y las esperadas. Ahora usando la
frmula de interpolacin para la JI cuadrada, con 2 = .025, 1 = .05, 22 = 11.14,
21 = 9.488 y 2calc.= 10.65 y sustituyendo todos los valores da:
(0.025 0.05)/(11.14 9.488) = (0.025 X)/(11.14 10.65)
Resolviendo por el valor a interpolarse da X = 0.015 = p = 0.015.
Ejemplos con la t de Estudiante usando el programa Minitab
Para usar el programa Minitab en las pruebas de hiptesis con la distribucin de t se
6-34
Dr. Hctor Quevedo Uras
procede como:
Stat > Basic Statistics > 1-sample t
Procedimiento:
En la ventana de Variables poner los datos del problema en la columna C1. En la
ventana de Test mean poner el promedio probado. En la ventana de Options en la
ventanilla de Alternative poner la hiptesis alternativa deseada y luego presionar la
tecla de OK.
Ejemplo #17. Este problema est relacionado con el ejemplo de la seccin de los
mecanismos usados para calcular el valor de p. Usando los datos de ese ejemplo #4
correspondientes a esa seccin y aplicando la funcin de arriba del programa Minitab,
probar:
(a) Ho: = 34.5 vs. H1: 34.5
(b) Ho: 34.5 vs. H1: < 34.5
(c) Ho: 33.2 vs. H1: > 33.2
Despus de sustituir todos los valores, el programa Minitab da los resultados
mostrados en la tabla de abajo.
6-35
Dr. Hctor Quevedo Uras
TABLA 6.4. Tabla mostrando los clculos hechos por el Minitab. (Elaboracin
propia).
________________________________________________________________
6-36
Dr. Hctor Quevedo Uras
rboles a los hongos. Este experimento consisti en aplicar nitrgeno a la mitad de los
rboles y a la otra mitad o sea el grupo de control al cual no se le aplic el nitrgeno.
Los pesos de los rboles se registraron en gramos al final del experimento. Probar que
no hay diferencias entre los pesos de las dos poblaciones de rboles. Asumir un
pareamiento en este problema. Asumir = 0.05. Los datos se dan en la tabla de abajo.
TABLA 6.5. Tabla mostrando los datos del problema. (Walpole et al. 1999)
Sin nitrgeno | 0.32 0.53 0.28 0.37 0.47 0.43 0.36 0.42 0.38 0.43
Con nitrgeno | 0.26 0.43 0.47 0.49 0.52 0.75 0.79 0.86 0.62 0.46
Solucin:
El programa Excel da los resultados en la tabla de abajo.
TABLA 6.6. Tabla mostrando los resultados del programa Minitab. (Elaboracin
propia).
6-37
Dr. Hctor Quevedo Uras
6-38
Dr. Hctor Quevedo Uras
6-39
Dr. Hctor Quevedo Uras
Tabla 6.7. Diagrama mostrando los criterios que se siguen para pruebas de
hiptesis con la distribucin F.
__________________________________________________________________
Prueba unilateral Prueba bilateral
Ho: 21 = 22 Ho: 21 = 22
Ha: 21 < 22 Ha: 21 22
(o Ha: 21 > 22)
Prueba estadstica: Prueba estadstica:
F = s22/s21 F = Varianza muestral grande/varianza muestral pequea
(o F = s21/s22 cuando Ha: 21 > 22) = s21/s22 cuando s21 > s22
(o s22/s21 cuando s22 > s21)
Regin de rechazo: Regin de rechazo:
Fcalc. > Ftab. Fcalc. > F/2 cuando s21 > s22
donde Ftab. est basada en 1 = n2 -1 donde F/2 se basa en 1 = n2 -1
y 2 = n1 1 grados de libertad. y 2 = n1 1 grados de libertad
(o Fcalc. > Ftab. donde Ha: 21 > 22 (o Fcalc. > F/2 cuando s21 > s22
donde Ftab. se basa en 1 = n1 1 donde F/2 se basa 1 = n1 1
y 2 = n2 1 grados de libertad) y 2 = n2 1 grados de libertad)
Fuente: McClave et al. (1982)
6-40
Dr. Hctor Quevedo Uras
. Frecuencia relativa
Ejemplo #18. Este ejemplo est encaminado a encontrar los valores crticos usando
la distribucin F. Siendo as, encontrar:
6-41
Dr. Hctor Quevedo Uras
6-42
Dr. Hctor Quevedo Uras
vemos que est entre 4.53 y 9.15 con sus valores respectivos de = 0.50 y .010,
por lo tanto la probabilidad es .01 < p < .05. Ahora, para obtener un valor de p ms
especifico se usa la frmula de interpolacin (5-30) :
(2 1)/(F2 F1) = (2 X)/(F2 Fcalc.)
Donde 2 = valor porcentual ms alto que el valor de Fcalc., 1 = valor porcentual
ms bajo que Fcalc., F2 = valor de la distribucin F correspondiente a 2, F1 = valor
de la distribucin F correspondiente a 1, X valor que se quiere interpolar y Fcalc. =
valor calculado.
Ahora con 2 = 0.05, 1 = 0.01, F2 = 4.53, F1 = 9.15 y Fcalc. = 5.70 y sustituyendo y
resolviendo por X da:
(0.05 0.01)/(4.53 9.15) = (0.05 X)/(4.53 5.70)
X = p = 0.04
Ejemplo #20. Supngase que un ingeniero ambiental saca dos muestras aleatorias
de dos sitios diferentes a lo largo de una corriente de agua y mide las
concentraciones de DBO5. Para la prueba de hiptesis el ingeniero quiere usar =
.10. La primera muestra consiste de n1 = 25 concentraciones de DBO5, cuyo
promedio es de X 1 = 25 mg/L con una desviacin estndar de s1 = 75 mg/L.
Similarmente, la segunda muestra consiste de n2 = 25, X 2 = 125 mg/L con s2 = 46.
Para esto, se tiene que hacer una decisin si se va a usar la distribucin (6-7) de t
de Estudiante que requiere de varianzas iguales y/o la distribucin (6-8) que no
requiere de varianzas iguales. Para resolver este problema hacer lo siguiente:
(a) Probar la hiptesis nula de que las varianzas de las dos muestras son iguales.
(b) Adems, calcular el valor de p.
Solucin:
1. Debido a que se quiere detectar una diferencia en las varianzas poblacionales,
6-43
Dr. Hctor Quevedo Uras
6-44
Dr. Hctor Quevedo Uras
Ejercicios Captulo 6
6.1. Encontrar los valores crticos de t por los cuales el rea del extremo derecho de la
distribucin de t es de = 0.05, y de = 0.01, si:
(a) = 16 (t[;] = t[.95;16] = 1.75, t[.99;16] = 2.583)
b) n = 28 (t[;] = t[.95;16] = 1.70, t[.99;28] = 1.701
(c) = (t[;] = t[.95;] = 2.33, t[99;] = 2.33)
6.2. Hacer el problema 6.1, pero bilateralmente.
6.3. Para mantener el control de la calidad industrial, un fabricante de sistemas de
control de partculas (ciclones), supone que la produccin de estos sistemas para el
control de partculas < 10 micras, tienen un eficiencia promedio de 32%. Para probar
esta aseveracin se tom una muestra de 8 ciclones y se midieron las eficiencias de
cada uno para ese tamao de partculas. Las eficiencias (%) fueron: 29.4, 30.8, 30.6,
31.5, 32.1, 31.7, 30.3, y 30.8%, respectivamente. Hacer las siguientes estimaciones:
(a) Establecer un intervalo de confianza para , con = 0.05. (30.18 < < 31.62)
(b) Hacer una prueba de hiptesis bilateral al 95%. (t = -3.62)
(c) Calcular el valor de la probabilidad, p. (0.009)
6.4. En una prueba para medir la acumulacin de plomo atmosfrico (Pb) en la
sangre, se realiz un experimento con 15 voluntarios. La prueba consisti en exponer
los sujetos en un sitio aledao a una planta de fundicin de metales y de exaltar el
metabolismo, esto es, corriendo. Despus de que los sujetos terminaron de correr, se
les sac sangre y se medi la concentracin de Pb, es decir, antes de correr y despus
de correr. Para esto usar la estadstica de t ms apropiada para resolver este problema
y sacar las conclusiones apropiadas. La tabla de abajo muestra la informacin
requerida para este experimento.
Tabla mostrando los datos del problema. (Elaboracin propia)
6-45
Dr. Hctor Quevedo Uras
___________________________________________________________________
No. sujeto Concentracin de Pb antes de correr Concentracin de Pb despus de correr
1 2.76 7.02
2 5.18 3.10
3 2.68 5.44
4 3.05 3.99
5 4.10 5.21
6 7.05 10.26
7 6.60 13.91
8 4.79 18.53
9 7.39 7.91
10 7.30 4.85
11 11.78 11.10
12 3.90 3.74
13 26.00 94.03
14 67.48 94.03
15 17.04 41.70
__________________________________________________________________
6.5. En una prueba para disear un equipo de control para partculas emitidas por una
fuente industrial, se hicieron dos pruebas para saber cual de los dos sistemas de
control eran ms eficientes. La primera prueba consisti en instalar un filtro de vidrio
(baghouse). La otra prueba consisti en agregar al sistema de control del baghouse, un
cicln. Probar la hiptesis, al 95% de nivel de confianza de qu, con el equipo
adicional, no hubo diferencia en las reducciones de contaminantes. Calcular el valor
de la probabilidad, p. La tabla de abajo muestra los resultados de los dos equipos de
control. Asmase que el muestreo de seleccin fue completamente al azar, sin
emparejamiento y asumir que las poblaciones son normales. (t = 3.54, p = 0.028)
6-46
Dr. Hctor Quevedo Uras
6.6. Para saber si una droga experimental puede curar los sntomas de la leucemia
6-47
Dr. Hctor Quevedo Uras
6.7. En un estudio de ingeniera del agua de anlisis de oxgeno disuelto (OD) varios
laboratorios se avocaron a hacer estos anlisis usando el mtodo de Winkler (MW)
(titulacin) y el mtodo de electrodos (ME). Usar una t estadstica de muestras
pareadas y probar que no hay diferencias entre los dos mtodos. Usar = .05.
Calcular el valor de p. Los datos se dan en la tabla de abajo. La tabla de abajo muestra
los datos de oxgeno disuelto (OD) de varios laboratorios usando el mtodo de
Winkler y el mtodo de electrodos. Las concentraciones del oxgeno disuelto (OD), se
expresan en mg/L son en mg/L. Sugerencia: Usar el programa de computadora
Minitab o Excel. (t = -2.49, p = .01)
6-48
Dr. Hctor Quevedo Uras
Mtodo de | 1.2 1.4 1.4 1.3 1.2 1.3 1.4 2.0 1.9 1.1 1.8 1.0 1.1 1.4
Winkler
Mtodo de | 1.6 1.4 1.9 2.3 1.7 1.3 2.2 1.4 1.3 1.7 1.9 1.8 1.8 1.8
Electrodos
_______________________________________
Mes 1 2 3 4 5 6
___________________________________________________________________
Antes de instalar el equipo 18 26 43 17 29 30
Despus de instalar el equipo 15 20 31 17 25 27
___________________________________________________________________
6-49
Dr. Hctor Quevedo Uras
6-50
Dr. Hctor Quevedo Uras
6-51
Dr. Hctor Quevedo Uras
6-52
Dr. Hctor Quevedo Uras
completar la tabla de abajo y comparar los resultados de las dos pruebas de hiptesis.
Son los resultados de la t de estudiante y de la probabilidad p, iguales o diferentes?
Tabla mostrando las temperaturas. (Elaboracin propia).
Temperaturas oC | 47 55 68 55 51 50 49 45 53 47 48 51
___________________________________________________________________
Temperaturas oF |
___________________________________________________________________
6.18. Encontrar los valores crticos de 2, por los cuales el rea de la cola derecha
de la distribucin es de 0.05 (2.95), si los grados de libertad son de:
(a) = 15
(b) 21
(c) = 50.
6.19. Para este problema, se dan los siguientes datos obtenidos de una muestra de
concentraciones (en mg/L) de nitratos (NO3-) tomados del efluente de una planta de
tratamiento de aguas residuales industriales. Construir un intervalo de confianza
para el verdadero valor de la varianza, es decir, la varianza poblacional 2, usando
un nivel significante de = 0.01. (0.21 < 2 < 1.31)
6-53
Dr. Hctor Quevedo Uras
6.23. El libro Elementary Statistics del auto Mario Triola (1995) da un ejemplo de
un radiador de un auto que contiene 3785 mL de anticongelante. Asumiendo que
las fluctuaciones son inevitables, el manejador de control de calidad quiere estar
seguro de que la desviacin estndar sea menos que 30 mL. De otra manera,
algunos radiadores se derramaran, mientras que otros, que no tendran suficiente
anticongelante, no. Para esto se selecciona una muestra aleatoria cuyos resultados
se dan abajo. Usar estos datos para construir un intervalo de confianza del 99%
para el verdadero valor de 2. Sugiere este intervalo de confianza que las
fluctuaciones estn en un nivel aceptable? Asmase que las distribuciones de los
llenados de los radiadores con el anticongelante estn normalmente distribuidas.
6-54
Dr. Hctor Quevedo Uras
6-55
Dr. Hctor Quevedo Uras
CAPITULO 7
Anlisis de Varianza
Diseos de anlisis de varianza completamente aleatorizados.- Mtodo de
comparaciones mltiples para saber cuales poblaciones son iguales y cuales
son desiguales.- Anlisis de varianza de diseo de bloques aleatorizados.-
Suposiciones del modelo de bloques aleatorios completos.- Anlisis de
varianza en dos sentidos.- Interaccin con ANOVA de dos factores.- Anlisis
de varianza de tres sentidos: diseo completamente aleatorio.- Interaccin con
ANOVA de diseos factoriales de tres clasificaciones.- Ejemplos de anlisis de
varianza usando el programa Minitab.-
El mtodo para comparar varios promedios se llama anlisis de varianza o
simplemente ANOVA. En su ms simple forma, el anlisis de varianza compara
varios tratamientos para determinar la igualdad de los promedios. En contraste con
la prueba de t de estudiante, que estudia la igualdad de dos poblaciones (Ho: 1 =
2), el anlisis de varianza estudia ms de 2 distribuciones, y usa la estadstica F.
Especficamente, el modelo ANOVA simple estudia las igualdades de ms de 2
promedios, esto significa que estudia los efectos de ms de dos "tratamientos," es
decir, de la hiptesis nula Ho: 1 = 2 = 3 = ..... = n, esto es, de que las varianzas
de los promedios son igual a cero (2 = 0). A pesar de que este anlisis de varianza
estudia los promedios, analiza, de hecho, la varianza de las poblaciones.
Las propiedades y suposiciones en el anlisis de varianza (ANOVA) son:
7-1
Dr. Hctor Quevedo Uras
7-2
Dr. Hctor Quevedo Uras
7-3
Dr. Hctor Quevedo Uras
aditivos. Por ejemplo, para ilustrar esta situacin, si se grafican los promedios
poblacionales versus tratamientos, digamos de bloque 1 y 2 y, si las grficas son
paralelas, se dice que los efectos de tratamiento y de bloques son aditivos o que no
interactan. Sin embargo, si las lneas se cruzan entre si, se dice que hay
interaccion o no aditividad.
El formato de la tabla de ANOVA de un sentido completamente aleatorizado
se da abajo. La TABLA 7.1 da una descripcin de todos los componentes de
clasificaciones unilaterales o de diseos completamente aleatorizados.
TABLA 7.1. Anlisis de varianza de un sentido de diseos completamente
aleatorizados.
Fuente de la Suma de (SS) Grados de Cuadrado (MSa) Fcalc. Ftab. Valor
variacin los cuadrados libertad medio de p
Tratamientos SSa a1 MSa = SSa/(a 1) F1 = MSa/s2 F[1-;a-1,a(n-1)]
Error SSe a(n 1) s2e = SSe/[a(n 1)]
Total SSt an 1
Donde:
a
SSa = n ( y i. - y .. )2 (7-1)
i=1
a n
SSe = (yij y i.)2 = SSt SSa (7-2)
i=1 j=1
a n
SSt = (yij y ..)2 (7-3)
i=1 j=1
a = nmero de tratamientos
n = tamao de la muestra
7-4
Dr. Hctor Quevedo Uras
Para denotar los simbolismos usados en la TABLA 7.1, estos se dan en la tabla de
abajo.
TABLA 7.2. Tabla mostrando los simbolismos usados en la TABLA 7.1. (Walpole
et al. 1999)
Tratamiento: 1 2 i k
y11 y11 yi1 yk1
y12 y22 yi2 yk2
. . . .
. . . .
y1n y2n . yin .. ykn
Promedio y 1. y 2. . y i. . y k. y ..
promedios
Ti. = Total de todos los promedios
Ejemplo #1. Este es un ejemplo relacionado con el uso de ANOVA unilateral o de
diseo completamente aleatorizado. Para esto se coleccionaron las concentraciones
atmosfricas de SO2 (en ppm) provenientes de 5 muestreadores localizados a
diferentes distancias (aleatoriamente asignadas), de una fuente industrial emisora.
Probar la hiptesis nula de que las 5 poblaciones de SO2 son iguales, es decir, Ho:
1 = 2 = 3 = 4 = 5. Calcular el valor de p. Los datos se dan en la tabla de abajo.
Usar un paquete de computadora para procesar los datos.
7-5
Dr. Hctor Quevedo Uras
Solucin:
Si se usa el programa Excel irse a: ANOVA Single factor.
Usando este programa, los resultados se dan abajo:
TABLA 7.4. Tabla mostrando los resultados de este problem usando el programa
de Excel.
ANOVA: Un solo factor
RESUMEN
Grupos Conteo Suma Promedio Varianza
Columna 1 4 2030 507.5 291.6667
Columna 2 4 2110 527.5 491.6667
Columna 3 4 2498 624.5 401
Columna 4 4 2866 716.5 235.6667
Columna 5 4 3590 897.5 291.6667
Tabla de ANOVA
Fuente de
Variacin SS gl MS Fcalc. Valor-p Fcrit.
Entre los grupos 406123.2 4 101530.8 296.5846 4.4E-14 3.055568
Dentro de los
grupos 5135 15 342.3333
Total 411258.2 19
7-6
Dr. Hctor Quevedo Uras
Source DF SS MS F P
Factor 4 406123 101531 296.58 0.000
Error 15 5135 342
Total 19 411258
Ntese que cada uno de estos paquetes de computadora tiene sus ventajas y
desventajas. De cualquier manera, al juzgar por el valor de F = 296.58 >>>> Fcrtica
= 3.06, la hiptesis nula de igualdad de poblaciones de SO2 se rechaza de una
manera mucho muy significante. Esta decisin es contundentemente apoyada por
el valor tan pequeo de p = 4.4x10-14.
Ejemplo #2. Se da la siguiente informacin en la tabla de abajo relacionada con
cierto estudio ecolgico. Asmase un diseo completamente aleatorizado. Sacar las
conclusiones adecuadas.
TABLA 7.6. Tabla mostrando los datos del problema. (Elaboracin propia)
6
Tratamiento Observaciones yij y i.
J=1
1 99 40 61 72 76 84 432 72
2 96 84 82 104 99 105 570 95
3 63 57 81 59 64 72 396 66
4 79 92 91 87 78 71 498 83
Solucin:
7-7
Dr. Hctor Quevedo Uras
Tabla de ANOVA
Fuente de
Variacion SS gl MS Fcalc. Valor-p Fcrit.
Entre los Grupos 2940 3 980 5.99022 0.004387 3.098391
Dentro de los
grupos 3272 20 163.6
Total 6212 23
7-8
Dr. Hctor Quevedo Uras
7-9
Dr. Hctor Quevedo Uras
siguientes clculos:
Solucin:
(a) Las suposiciones implicadas por el modelo de anlisis de varianza de una sola
clasificacin son:
1. Las cuatro poblaciones de los nitratos estn normalmente distribuidas.
2. Las varianzas de las cuatro poblaciones de nitratos son iguales.
3. Las 24 observaciones (anlisis) son independientes, es decir, que las muestras
fueron seleccionadas aleatoriamente.
(b) Usando el programa Minitab irse a:
Stat ANOVA One way (unstacked) da los iguientes resultados mostrados en
la Tabla 7.9.
7-10
Dr. Hctor Quevedo Uras
TABLA 7.9. Tabla de ANOVA para los resultados de ejemplo de arriba usando el
Minitab. (Elaboracin propia)
One-way ANOVA: Tratamiento 1, Tratamiento 2, Tratamiento 3, Tratamiento 4
Source DF SS MS F P
Factor 3 2940 980 5.99 0.004
Error 20 3272 164
Total 23 6212
Por otra parte, un mtodo corto para hacer anlisis de varianza de un sentido, es
decir, manualmente, se da usando el formato de la tabla de abajo.
TABLA 7.10. Tabla de anlisis de varianza (ANOVA) para una clasificacin, con
muestras de tamaos iguales usando el mtodo abreviado. (Elaboracin propia).
Donde:
T2 = cuadrado de los totales
g.l. = = grados de libertad
n = tamao de la muestra
G = gran total
a = nmero de muestras
7-11
Dr. Hctor Quevedo Uras
Ejemplo #4. La tabla de abajo muestra los datos de los anlisis de demanda
qumica de oxgeno (DQO) hechos por 3 laboratorios diferentes. Se tomaron 3
muestras de 5 observaciones cada una. Asumir que las 3 muestras vienen de
poblaciones normales aleatorias y que tienen la misma varianza. Asumir un nivel
de significancia de = 0.05. Hacer lo siguiente:
(a) Una tabla con un anlisis de varianza para el DQO.
(b) Establecer la regin crtica.
(c) Probar la hiptesis nula de Ho: 1 = 2 = 3, o sea que 2 = 0, es decir, que los
promedios de las tres poblaciones de DQO son iguales. Adems, establecer la
hiptesis alternativa apropiada.
(d) Si se rechaza Ho: calcular el valor de la probabilidad p.
Se da la tabla de abajo con algunos clculos preliminares:
TABLA 7.11. Tabla mostrando los clculos preliminares. (Elaboracin propia)
Nmero de muestra (1) (2) (3) Combinacin
Observacin 3 9 1
7 12 2
7 11 6
6 8 4
2 5 7
__________________________________________________________________
Totales 25 45 20 G = 90
Promedio X 5 9 4 X =6
Solucin:
Usando las estadsticas de la TABLA 7.10, los clculos son:
7-12
Dr. Hctor Quevedo Uras
7-13
Dr. Hctor Quevedo Uras
7-14
Dr. Hctor Quevedo Uras
7-15
Dr. Hctor Quevedo Uras
Solucin:
Usando un programa de computadora como EXCEL da los siguientes resultados.
(a) La tabla de abajo muestra los resultados obtenidos usando el paquete de
computadora.
TABLA 7.13. Resultados usando anlisis de varianza de un solo factor.
Anlisis de varianza de un solo factor
Resumen
Grupos Conteo Suma Promedios Varianzas
Agregado 1 6 3320 553.3333 12133.87
Agregado 2 6 3416 569.3333 2302.667
Agregado 3 6 3663 610.5 3593.5
Agregado 4 6 2791 465.1667 3318.567
Agregado 5 6 3664 610.6667 3455.467
ANOVA
Fuente de Variacin SS gl MS F calc. Valor-p F crit.
Entre los grupos 85356.47 4 21339.12 4.301536 0.008752 2.75871
Dentro de los grupos 124020.3 25 4960.813
Total 209376.8 29
7-16
Dr. Hctor Quevedo Uras
7-17
Dr. Hctor Quevedo Uras
dos factores, en el sentido de que se usa I para representar el nmero de niveles del
primer factor A y J para representar el nmero de niveles del segundo factor B
(bloques). Siendo as, hay IJ posibles combinaciones que constan de un nivel de
factor A y otro de factor B. Cada una de estas combinaciones se llama tratamiento,
por lo que hay IJ diferentes tratamientos. Aqu, en el diseo de bloques, el nmero
de observaciones hechas en el tratamiento IJ se representan con Kij = 1, el cual es
un caso especial del diseo de bloques aleatorizados, donde un solo factor A es de
inters principal, y el otro factor (B) bloques es incluido para reducir el error
experimental. En la siguiente discusin de ANOVA de dos factores, nos
centraremos en el caso de Kij = K > 1, para diferenciarlo del diseo de bloques
aleatorios con Kij = 1.
De cualquier manera, el trmino bloque se deriva de diseos
experimentales agrcolas, en los cuales las parcelas de tierras de cultivos se refieren
como bloques. Por ejemplo, en el caso del diseo de bloques aleatorios, los
tratamientos se asignan aleatoriamente a unidades dentro de cada bloque con
caractersticas de suelos semejantes. De no ser as, las parcelas a las que se le
aplica fertilizante, no todas pudieran tener el mismo tipo de tierra, nutrientes o
humedad, (lo que puediera causar variaciones en los rendimientos agrcolas). Al
agrupar las parcelas por caractersticas similares de suelos, minerales, nutrientes,
humedad, etc., el error experimental se reduce.
Otro ejemplo, es el relacionado con experimentos mdicos. Por ejemplo, si
los tratamientos son 3 drogas y hay 24 pacientes, usando el diseo completamente
aleatorizado, 8 pacientes son asignados aleatoriamente a cada uno de los
tratamientos. Pero puede ocurrir que el historial clnico de los 24 pacientes no sea
el mismo, lo cual puede afectar su comportamiento a las drogas (lo que puede
7-18
Dr. Hctor Quevedo Uras
causar un error o residual grande). Sin embargo, agrupando los pacientes por
historiales clnicos similares, edades, sexo, pesos, fumadores, tomadores,
orientaciones sexuales, etc., se controla esta variacin.
En el caso de la ingeniera ambiental, usando modelos de contaminacin
atmosfrica, se esperara que las concentraciones de los contaminantes
disminuyeran en funcin de la distancia (siempre y cuando las alturas de los
muestreadores fueran iguales, las condiciones metereolgicas fueran uniformes y
el tipo terreno por donde est pasando la pluma fuera similar). Al controlar estos
factores, las concentraciones de los contaminantes disminuyen exponencialmente,
en funcin de la distancia de la fuente emisora, sin producir mucha variacin.
La tabla de abajo da el ANOVA para el diseo de bloques completos.
TABLA 7. 14. ANOVA de un diseo aleatorizado por bloques completos.
Fuente de Suma de los Grados de Cuadrado Fcalc. Ftab. Valor de
variacin cuadrados libertad medio p
Debido a los SSa a1 MSa = SSa/(a 1) MSa/s21 F[1-;a-1,(a-1)(b-1)] Calculada
tratamientos
Debido a los SSb b1 MSb = SSb/(b 1) MSb/s22 F[1-;b-1,(a-1)(b-1)]
bloques
Residual (Error) SSe (a 1)(b 1) MSe = SSe/[(a 1)(b - 1)]
Total SSt ab 1
____________________________________________________________________________________
Donde:
a
SSa = b ( y i. y .. )2 Suma de cuadrados de tratamientos (7-7)
i=1
b
SSb = a ( y .j y .. )2 Suma de cuadrados de bloques (7-8)
J=1
7-19
Dr. Hctor Quevedo Uras
a b
SSe = (yij y i. y .j + y .. )2 Suma de cuadrados del error (7-9)
i=1 j=1
a b
SSt = (yij y ..)2 Suma total de los cuadrados (7-10)
i=1 j=1
Donde:
y i. = promedio de las observaciones para el i-simo tratamiento
7-20
Dr. Hctor Quevedo Uras
Solucin:
7-21
Dr. Hctor Quevedo Uras
Tabla de ANOVA
Fuente de variacin SS gl MS Fcalc. Valor de p Fcrtica
Maquinaria 280.26 3 93.42 54.93499 .00000414 3.862548
Operadores 951.115 3 317.0383 186.4322 .00000002 3.862548
Error 15.305 9 1.700556
Total 1246.68 15
7-22
Dr. Hctor Quevedo Uras
Conclusin:
Con respecto a la maquinaria, debido a que el valor de la Fcalc. = 54.9 >>> Fcrtica se
rechaza Ho: Esta decisin es mucho muy significativa, al juzgar por el valor de p =
.000004. Las mquinas s difieren muy significantemente, con respecto a la
productividad. Con respecto a los operadores, debido a que el valor de Fcalc. = 186.4
>>>> Fcrtica se rechaza Ho: Esta decisin es mucho, mucho muy significante al
juzgar por el valor de p = 2x10-8. Los operadores s difieren muy
significantemente, con respecto a la productividad de tiempo. Esto es apoyado,
muy contundentemente, por el valor tan bajo de la probabilidad p.
Ejemplo #7. Este es un ejemplo relacionado con un experimento de bloques
aleatorios completos para determinar los efectos corrosivos de cuatro sustancias
qumicas diferentes, v.g., HCl, H2SO4, HNO3 y HF. Es decir, cidos gaseosos que
entran en el flujo de aire (flujo transportador que entra al equipo de control, el cual
se genera de un procesamiento industrial), que pasan por los filtros, es decir, en las
telas usadas en los filtros o baghouses (hechas de fibra de vidrio, asbestos, dacron,
niln, polietileno), para controlar la contaminacin del aire. Para tales fines se
seleccionan cinco muestras de telas y se aplica un diseo aleatorio por bloques
completos, por medio de probar cada sustancia qumica, en un orden aleatorio,
sobre cada una de las muestras de las telas. Sacar las conclusiones debidas. Los
datos se dan en la tabla de abajo. Hacer lo siguiente:
(a) Probar la hiptesis nula de igualdad de promedios
(b) Hacer una tabla de anlisis de varianza de diseo aleatorizado por bloques
completos. Sacar las conclusiones apropiadas
7-23
Dr. Hctor Quevedo Uras
Tabla de ANOVA
Valor de
Fuente de variacin SS gl MS Fcalc. p Fcritica
Debido a los cidos 13.7095 3 4.569833 48.18805 5.75E-07 3.490295
Debido a las telas 5.738 4 1.4345 15.12654 0.000123 3.259167
Error 1.138 12 0.094833
Total 20.5855 19
Debido a que el valor de la Fcalc. = 48.19 > F0.05,3,12 = 3.49 se rechaza la hiptesis
7-24
Dr. Hctor Quevedo Uras
7-25
Dr. Hctor Quevedo Uras
cual consistira en usar seis tratamientos formados por medio de usar cada tipo de
semilla con cada nivel de fertilizante.
Otro ejemplo, de ANOVA de dos factores est relacionado con la medicin
de las concentraciones de contaminates del aire emitidos por una fuente industrial.
Aqu para un factor se pueden seleccionar diferentes niveles distancias de la fuente
emisora y, para el otro factor, se pueden seleccionar diferentes alturas donde estn
situados los muestreadotes (porque la altura afecta las concentraciones).
Interaccin con ANOVA de dos factores
Cuando se estudian experimentos factoriales es importante determinar si los
factores principales tienen una influencia en la respuesta, sino tambin analizar lo
que se llama interaccin (no aditividad) entre los factores. El texto de Dunn et al.
(1974) aplica un experimento de dos clasificaciones, para explicar el concepto de
la interaccin. Por ejemplo, en la Figura 7.2, en un experimento que involucra tres
niveles de agua y tres niveles de fertilizante, las lneas son paralelas, lo que indica
que no hay interaccin, o sea que hay independencia en los datos. Sin embargo, en
la Figura 7.3 se observa qu, en ambas grficas hay una respuesta promedio con
interaccin, es decir, que hay dependencia. Por ejemplo, en la primera grfica un
nivel alto de fertilizante interacciona positivamente con un nivel alto de agua;
mientras que en la segunda grfica niveles altos de agua y fertilizante resultan en
una respuesta baja, en comparacin con la respuesta a niveles bajos y medianos de
agua. En trminos simples, se dice que hay interaccin entre dos factores (digamos
A y B), si el cambio en uno de los factores (digamos factor B) produce un cambio
en respuesta a un nivel (digamos nivel 1) del otro factor (digamos A) diferente de
aqul producido en los otros niveles (digamos nivel 2) de este segundo factor A,
donde un nivel es uno de los tratamientos dentro de un factor.
7-26
Dr. Hctor Quevedo Uras
Figura 7.2. Grfica indicando una respuesta promedio sin interaccin (aditividad),
o sea que hay independencia en los datos. (Dunn et al. 1974).
Figura 7.3. Grficas indicando una respuesta promedio con interaccin (no
aditividad) o sea que hay dependencia entre los datos. (Dunn et al. 1974).
Cuando ocurre una interaccin en algn experimento es importante
investigar porque ocurri. Por ejemplo, cuando se establece la tabla de anlisis de
varianza, se estudian los comportamientos de los efectos principales y tambin, la
posible interaccin entre los dos factores bajo estudio. En trminos estadsticos, si
la F calculada es mayor que la F crtica eso indica que los factores estn
7-27
Dr. Hctor Quevedo Uras
7-28
Dr. Hctor Quevedo Uras
La TABLA 7.19 de abajo muestra el formato que se sigue para los anlisis de
varianza en dos sentidos.
TABLA 7. 19. Tabla de anlisis de varianza en dos sentidos. (Elaboracin propia)
Fuente de SS g.l. MS Fcalc. Ftab.
variacin
Efecto principal
Interaccin de
dos factores
Donde:
a
( y i.. - y )2
SSa = bn i=1 (7-11)
b
( y .j. - y ... )2
SSb = an J=1 (7-12)
a b
SSab = n i=1 ( y ij. - y i.. - y .j. + y )2
j=1 (7-13)
a b n
SSe = i=1
(yijk - y ij.)2
j=1 k=1
(7-14)
a b n
SSt = i=1
(yijk y )2
j=1 k=1
(7-15)
7-29
Dr. Hctor Quevedo Uras
yijk = k-sima observacin en el i-simo nivel del factor A y el nivel j-simo nivel
del factor B
a = nmero de muestras del primer factor
b = nmero de muestras del segundo factor
n = nmero total de casos
Y donde:
7-30
Dr. Hctor Quevedo Uras
7-31
Dr. Hctor Quevedo Uras
7-32
Dr. Hctor Quevedo Uras
7-33
Dr. Hctor Quevedo Uras
TABLA 7.21. Produccin de cebada en fanegas por acre. (Dunn et al. 1974)
Nivel de fertilizante
Tipo de semilla Bajo Mediano Alto
1 14.3 18.1 17.6
14.5 17.6 18.2
11.5 17.1 18.9
13.6 17.6 18.2
y 11. = 13.475 y 12. = 17.600 y 13. = 18.225 y 1.. = 16.433
----------------------------------------------------------------------------------------------------
2 12.6 10.5 15.7
11.2 12.8 17.5
11.0 8.3 16.7
12.1 9.1 16.6
y 21. = 11.725 y 22. = 10.175 y 23. = 16.625 y 2.. = 12.842
Con a = 2, b = 3 y n = 4
2
SSa = bn ( y i.. - y )2 = (3)(4)[16.443 - 14.638)2 + (12.842 - 14.638)2]
i=1
+ (17.43 - 14.638)2 ]
7-34
Dr. Hctor Quevedo Uras
a b n
SSe = i=1
(yijk - y ij.)2
j=1 k=1
Ahora, se sustituyen todos los clculos hechos manualmente, para obtener la tabla
de debajo de dos clasificaciones cruzadas o de doble sentido.
TABLA 7.22. Tabla de anlisis de varianza para el experimento agrcola de dos
tipos de semillas con tres niveles diferentes de fertilizantes. (Dunn et al. 1974)
En conclusin, debido a que la Fcalc. es mucho mayor que la Ftab., es decir, 64.8 >>
4.41 se rechaza la hiptesis de que no hay diferencia entre las semillas, y nos
inclinamos por la hiptesis alternativa, es decir, H1:1 2 3 4. Esta
7-35
Dr. Hctor Quevedo Uras
7-36
Dr. Hctor Quevedo Uras
7-37
Dr. Hctor Quevedo Uras
Donde:
a
SSa = bcn ( y i... y ....)2 (7-18)
i=1
b
SSb = acn ( y .j.. y .)2 (7-19)
j=1
c
SSc = abn ( y ..k. y ....)2 (7-20)
k=1
a b
SSab = cn ( y ij.. y i - y .j.. + y .)2 (7-21)
i=1 j=1
a c
SSac = bn ( y i.k. y i - y ..k. + y .)2 (7-22)
i=1 k=1
b c
SSbc = an ( y .jk. y .j.. y ..k. + y .)2 (7-23)
j=1 k=1
a b c
SSabc = n ( y ijk. y ij.. y i.k. y .jk. + y i + y .j.. + y ..k. y .)2 (7-24)
i=1 j=1 k=1
a b c n
SSe = (yijkl y ijk.) (7-25)
i=1 j=1 k=1 l=1
a b c n
SSt = (yijkl y ....) (7-26)
i=1 j=1 k=1 l=1
7-38
Dr. Hctor Quevedo Uras
y ij.. = promedio de los casos para el i-simo nivel del factor A y el j-simo nivel del
factor B
yijkl = denota la l-sima observacin de la combinacin del tratamiento ijk-simo
Los investigadores estadsticos Dunn et al. (1974) proporcionan el modelo
para el anlisis de varianza en tres sentidos, esto es:
yijkl = + i + j + ()ij + ()ik + ()jk + ()ijk + ijkl (7-27)
Donde:
= promedio total de los tres tratamientos abc
i = efecto promedio del nivel i-simo del factor A
j = efecto promedio del nivel j-simo del factor B
k = efecto promedio del nivel k-simo del factor C
()ij = interaccin de los factores A y B, es decir, del nivel i-simo del factor A con
el nivel j-simo del factor B
()ik = interaccin de los factores A y C, es decir, del nivel i-simo del factor A
con el nivel k-simo del factor C
()jk = interaccin de los factores B y C, es decir, del nivel j-simo del factor B
con el nivel k-simo del factor C
()ijk = interaccin de los factores A, B y C, es decir, las interacciones entre el
nivel i-simo del factor A con el nivel j-simo del factor B y con el nivel k-simo
del factor C
Interaccin con ANOVA de diseos factoriales de tres clasificaciones
En cuanto al impacto de interacciones, cuando se disean anlisis de varianza en
tres sentidos, es importante estar consciente de esta situacin, porque la interaccion
puede impactar la interpretacin que se hace con respecto a los efectos principales.
7-39
Dr. Hctor Quevedo Uras
7-40
Dr. Hctor Quevedo Uras
interaccin, tal vez los tipos de suelos de las parcelas no tienen las mismas
caractersticas, es decir, de humedad, de tipos de suelos, tipos de temperaturas,
tipos de nutrientes, etc., en cuyo caso hay que remitirnos a los diseos de bloques
completamente aleatorizados.
Ejemplo #10. En un estudio hipottico de difusin atmosfrica, es decir, usando un
modelo de difusin atmosfrica, se hicieron mediciones en cuatro distancias
diferentes a lo largo de la pluma (500, 1000, 1200 y 1500 metros), en dos alturas
diferentes, (500 y 800 metros), con cuatro marcas diferentes de sensores, y con
tamaos de muestras de 3 observaciones para cada una de las combinaciones de
niveles de los tres factores. Para esto se da una avanzada de los valores en la
siguiente forma: Suma de los cuadrados del factor A = SSa = 1.50, suma de los
cuadrados del factor B = SSb = 19.35, suma de los cuadrados del factor C = SSc =
147.00, suma de los cuadrados de la interaccin de factores A y B = SSab = 0.006,
suma de los cuadrados de la interaccin de factores A y C = SSac = 4.83, suma de
los cuadrados de la interaccion de B y C = SSbc = 2.64, suma de los cuadrados de la
interaccin de los factores A, B y C = SSabc = 0.75, suma total de los cuadrados =
SSt = 183.70. Asumir un nivel de significancia de 0.05. Probar las hiptesis de los
efectos principales, slo si todas las interacciones no son significativas. Hacer lo
siguiente:
(a) Asignar los simbolismos apropiados para cada uno de los componentes de la
fuente de variacin
(b) Hacer una tabla de anlisis de varianza que incluya la F crtica y los valores de
p
(c) Hacer pruebas de significancia sobre los efectos principales
(d) Hacer una prueba de significancia sobre todas las interacciones.
7-41
Dr. Hctor Quevedo Uras
Solucin:
(a) La distancia de los muestreadores situados a lo largo de la pluma, es decir,
viento abajo, es el factor A con i = 4. Las alturas a las que estn situado los
muestreadores es el factor B con j = 2. Finalmente, los muestreadores son el factor
C con k = 4. El nmero de casos es n = 3. Por lo tanto el nmero de
combinaciones es 4x2x4 = 32 y el nmero total de observaciones es 32x3 = 96.
(b) La tabla de anlisis de varianza se da abajo.
TABLA 7.24. Tabla mostrando los datos y el llenado de los faltantes en la tabla, de
acuerdo a los datos proporcionados por el problema. (Elaboracin propia).
Fuente de SS g.l. Cuadrado del Fcalc. Ftab. Valor p
Variacin promedio
__________________________________________________________________
Efectos principales
Debido a A 1.50 3 .50 4.17 2.76 .009
Debido a B 19.40 1 19.40 161.17 3.94 p <<< .001
Debido a C 147.00 3 49.00 408.33 2.76 p <<< .001
Interaccin de dos factores
Debido a AB 0.006 3 0.002 0.02 2.76 p > .100
Debido a AC 4.83 9 0.54 4.50 1.97 p < .001
Debido a BC 2.64 3 0.88 7.33 2.76 p < .001
Interaccin de tres factores
Debido a ABC 0.75 9 0.08 0.67 1.97 p > .100*
Error 7.59 64 0.12
Total 183.72 95
__________________________________________________________________
7-42
Dr. Hctor Quevedo Uras
(c) Conclusin: los efectos principales son significantes sustentados con valores de
p muy pequeos de .009 y p <<< .001. Al juzgar por estos valores de p, existen
efectos principales muy fuertes de distancia, altura y sensores. Por otro lado,
debido a que F7 = MSabc/s27 = 0.67 < F7[0.05;9,64] = 1.97, las interacciones entre los
factores distancia, altura y sensores no son de importancia. Sin embargo, las
interacciones AC y BC son variables importantes del experimento.
En el tpico de anlisis de varianza, tambin hay lo que se llama diseos
factoriales con todos los factores a dos niveles. Aqu se incluyen tpicos como
combinaciones ortogonales lineales, diseos de replicaciones fraccionales, diseos
anidados o jerrquicos, cuadrados latinos, etc. Estas funciones, sin embargo, no se
discutiran aqu.
El anlisis de varianza, tambin se puede aplicar a problemas de regresin
lineal y mltiple para evaluar la significancia total de la ecuacin de regresin, es
decir, probando la hiptesis nula de que todos los coeficientes poblacionales del
modelo de regresin son iguales a cero. Este tema, sin embargo, se discute en el
captulo dedicado a regresin mltiple.
Ejemplo #11. Este es un problema relacionado con un experimento factorial con
dos factores de efectos fijos (A y B) y con tamaos de muestras iguales. Por
ejemplo, el factor A tiene a niveles, mientras que el factor B tiene b niveles. Este
experimento est relacionado con un estudio de difusin atmosfrica para medir las
concentraciones del contaminante del aire SO2 provenientes de una fuente emisora
industrial. Para tales fines se situaron dos sensores, al azar a cuatro diferentes
distancias viento abajo de la chimenea industrial, es decir, a 500, 1000, 1500 y
2000 metros y a dos alturas diferentes, es decir, a 100 y 200 metros. Usar un
7-43
Dr. Hctor Quevedo Uras
paquete de computadora, para tales fines. La tabla de abajo proporciona los datos
pertinentes. Usar un nivel de significancia de = 0.05 y hacer lo siguiente:
(a) Construir una tabla de anlisis de varianza fijo en dos clasificaciones
(b) Analizar los efectos principales de la distancia y la altura
(c) Analizar el efecto de interaccin y dar explicaciones al respecto
(d) Hacer un anlisis residual para evaluar lo apropiado del modelo de ANOVA
(e) Hacer estudios objetivistas de estadstica para evaluar la fidelidad del modelo
de ANOVA
TABLA 7.26. Tabla mostrando las concentraciones de SO2 (en ppm) en funcin de
cuatro distancias viento abajo de la chimenea y de las alturas de los sensores.
(Elaboracin propia)
Distancias viento abajo de la fuente emisora
__________________________________________________
Alturas de los sensores 500 m 1000 m 1500 m 2000 m
_______________________________________________________________________
100 m 500 300 180 90
510 305 185 91
495 320 179 89
499 299 190 88
7-44
Dr. Hctor Quevedo Uras
Solucin:
Usando el programa Minitab se procede a disear la matriz o la entrada de los
datos mostrada en la tabla de abajo.
TABLA 7.26. Tabla mostrando la matriz o disposicin ordenada de los datos en la
pgina del Minitab para la informacin de este problema.
_____________________________________________________________
Concentracin de SO2 (ppm) Distancias (m) Alturas (m)
(Columna C1) (Columna C2) (Columna C3)
_____________________________________________________________
500 500 m 100 m
510 500 m 100 m
495 500 m 100 m
499 500 m 100 m
300 1000 m 100 m
305 1000 m 100 m
320 1000 m 100 m
299 1000 m 100 m
180 1500 m 100 m
185 1500 m 100 m
179 1500 m 100 m
190 1500 m 100 m
90 2000 m 100 m
91 2000 m 100 m
89 2000 m 100 m
88 2000 m 100 m
450 500 m 200 m
449 500 m 200 m
438 500 m 200 m
455 500 m 200 m
290 1000 m 200 m
270 1000 m 200 m
260 1000 m 200 m
275 1000 m 200 m
170 1500 m 200 m
160 1500 m 200 m
155 1500 m 200 m
165 1500 m 200 m
70 2000 m 200 m
70 2000 m 200 m
69 2000 m 200 m
68 2000 m 200 m
7-45
Dr. Hctor Quevedo Uras
Despus de ingresar los datos de arriba a la pgina del Minitab procede como:
Stat ANOVA Two-Way
En la ventana que aparece de Two-Way Anlisis of Variance y dentro de la
ventanilla de Response poner, en la columna C1, todos los valores de la variable
de respuesta, es decir, en este caso, las concentraciones de SO2. Enseguida, en la
ventanilla de Row factor del factor A (renglones), poner los valores de las
distancias y meter en la ventanilla de Column factor la informacin del factor B
(columnas), es decir, las alturas. Esta informacin se da en la Tabla 7.26.
Una vez que se introducen todos los trminos siguiendo las instrucciones
anteriores, irse a: Stat ANOVA Two-Way, y el programa generar la tabla
de debajo de ANOVA correspondiente a la pregunta del inciso (a).
TABLA 7.27. Tabla mostrando los resultados de ANOVA dados por el Minitab.
(Elaboracin propia)
Two-way ANOVA: Conc. SO2 (ppm) versus Distancias (m), Alturas (m)
Source DF SS MS F P Ftab.
Distancias (m) 3 695696 231899 4501.07 0.000 3.01
Alturas (m) 1 8001 8001 155.30 0.000 4.26
Interaccin 3 1399 466 9.05 0.000 3.01
Error 24 1237 52
Total 31 706333
__________________________________________________________________
s = 7.178 R-Sq = 99.82% R-Sq(adj) = 99.77%
(b) De acuerdo a la tabla de ANOVA de arriba, los efectos principales del factor A
(distancias) y el factor B (alturas) son mucho muy significantes.
7-46
Dr. Hctor Quevedo Uras
(c) Existe una interaccin significante entre los factores A (distancia) y B (alturas).
La interaccin en este caso, pudo ocurrir por mera casualidad o tal vez pudo
deberse a algn problema en los datos, es decir, en trminos de causa y efecto.
Fsicamente hablando, algn factor que no se pudo controlar pudo ocasionar la
interaccin entre los dos factores. Por ejemplo, pudo ocurrir algn mal
funcionamiento de los sensores, que no midieron bien las concentraciones de SO2
en un momento dado. Otras razones pudieron relacionarse con algn cambio
meteorolgico inusitado (aunque el modelo de difusin asume condiciones
meteorolgicas constantes), emisiones fugitivas, terreno no uniforme por donde
pasa la pluma, etc. Estadsticamente hablando, las interacciones tambin pueden
ocurrir cuando los efectos principales son muy grandes (como el factor A en este
caso, aunque si bien, esto se puede corregir aminorando las diferencias entre los
niveles de un tratamiento, para hacer los efectos principales menos acentuados).
(d) Las grficas de abajo muestran los resultados para este inciso.
Residuals Versus the Order of the Data Residuals Versus the Fitted Values
(response is Concentracion de SO2 (m))
(response is Concentracion de SO2 (m))
20
20
15 15
10 10
Residual
5
Residual
0 0
-5 -5
-10 -10
-15 -15
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 100 200 300 400 500
Observation Order Fitted Value
Figura 7.10. Graficas mostrando los valores residuales en funcin del nmero de
observacin y de los valores ajustados.
7-47
Dr. Hctor Quevedo Uras
Normal Probability Plot of the Residuals Individual Value Plot of Conc. SO2 (ppm) vs Distancias (m), Alturas (m)
(response is Concentracion de SO2 (m))
99
500
95
90 400
60 300
50
40
30
20 200
10
5
100
1
-15 -10 -5 0 5 10 15 20 Alturas (m) 100 m 200 m 100 m 200 m 100 m 200 m 100 m 200 m
Residual Distancias (m) 1000 m 1500 m 2000 m 500 m
7-48
Dr. Hctor Quevedo Uras
Solucin:
Aqu, el factor A tiene tres niveles (i = 1,, a = 3); el factor B tiene dos niveles (j
= 1,, b = 2) y el factor C tiene dos niveles (k = 1,, c = 2) o sea 3x2x2 = 12
combinaciones de tratamientos. Adems hay l = 1,, n = 4 observaciones en cada
uno de las abc combinaciones de tratamientos (celdas) o sea abcn = 3x2x2x4 = 48
observaciones.
7-49
Dr. Hctor Quevedo Uras
7-50
Dr. Hctor Quevedo Uras
7-51
Dr. Hctor Quevedo Uras
7-52
Dr. Hctor Quevedo Uras
7-53
Dr. Hctor Quevedo Uras
18.0
16.5
Mean of Y (respuesta)
15.0
1 2 3 1 2
C
19.5
18.0
16.5
15.0
1 2
7-54
Dr. Hctor Quevedo Uras
12
20
B
1
2
16
B
12
20
C
1
2
16
C
12
1 2 3 1 2
Figura 7.13. Grficas mostrando los efectos de interaccin entre los factores A, B y
C. Se le pide al lector interpretar estas interacciones.
7-55
Dr. Hctor Quevedo Uras
Standardized Residual
90 2
Percent
50
0
10
-2
1
-3.0 -1.5 0.0 1.5 3.0 10 15 20
Standardized Residual Fitted Value
12 2
Frequency
8
0
4
-2
0
-2 -1 0 1 2 3 1 5 10 15 20 25 30 35 40 45
Standardized Residual Observation Order
7-56
Dr. Hctor Quevedo Uras
Ejercicios Captulo 7
7.1. Los siguientes datos se obtuvieron de un muestreo atmosfrico de xidos de
azufre (SO2) proveniente de 4 lugares diferentes. Hacer un anlisis de varianza con
un nivel de significancia de = 0.05. Ver si hay diferencias entre los 4 sitios. Usar
la prueba de comparaciones mltiples para ver cuales son iguales y cuales son
desiguales si es que as es.
Tabla mostrando los datos del SO2. (Elaboracin propia)
__________________________________________________________________
7-57
Dr. Hctor Quevedo Uras
Probar que no hay diferencia entre los cuatro tratamientos. Usar el programa
Minitab.
Tabla mostrando la produccin de maz bajo cuatro diferentes tratamientos de
fertilizantes. (Elaboracin propia)
__________________________________________________________________
Tratamientos Rendimientos
Sin aplicacin de fertilizante (1) 99 40 61 72 76 84
Con aplicacin de fertilizante (2) 96 84 82 104 99 105
Con aplicacin de fertilizante (3) 63 57 81 59 64 72
Con aplicacin de fertilizante (4) 79 92 91 87 78 71
Las suposiciones son que las 4 poblaciones del rendimiento de maz estn
normalmente distribuidas, con las varianzas de las poblaciones iguales y con las
observaciones independientes.
7.3. Para comparar la efectividad de 3 muestreadores de gases, es decir, usando
mtodos A, B y C se seleccionaron muestras de tamao cuatro y se registraron los
siguientes resultados en ppm.
Tabla mostrando la informacin requerida. (Elaboracin propia)
7-58
Dr. Hctor Quevedo Uras
7-59
Dr. Hctor Quevedo Uras
Laboratorio 1 2 3 Ti
1 16 19 24 59
2 21 20 21 62
3 18 21 22 61
4 13 20 25 58
Suma de las 68 80 92 240
columnas (Tj)
Sacar las conclusiones debidas de la hiptesis para los tres mtodos de anlisis y
decir si se rechaza o se retiene la hiptesis.
7.5. La tabla de abajo muestra una informacin que se recab de un muestreo de un
contaminante atmosfrico (ozono) proveniente de 5 muestreadores localizados en
cinco lugares diferentes. Hacer los siguientes clculos.
7-60
Dr. Hctor Quevedo Uras
(a) Probar la hiptesis nula de que no hay diferencias entre las 5 poblaciones
muestreadas, Ho: 1 = 2 = 3 = 4 = 5, con un nivel significante de = 0.05.
(b) Hacer una tabla de ANOVA.
(c) Calcular el valor de la probabilidad p.
Tabla con los datos de ozono con los nmeros de los muestreadores. (Elaboracin
propia)
1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
7-61
Dr. Hctor Quevedo Uras
Hacer la tabla del anlisis de varianza para los obesos y sacar conclusiones al
respecto. Adems, revertir este problema a un diseo de bloques aleatorios y ver si
hay alguna mejora en el error experimental.
7.7. Los datos de abajo representan el nmero de horas de alivio paliativo dado por
5 tabletas diferentes A, B, C, D, E, para el dolor de cabeza, que se les
administraron a 25 sujetos quienes experimentaban dolores de cabeza (migraas).
Hacer un anlisis de varianza para probar la hiptesis al nivel de significancia de
0.05 de que el nmero promedio de horas de alivio paliativo dado por las tabletas
es el mismo para las cinco tabletas usadas. Calcular el valor de la probabilidad p.
Los datos se dan en la tabla de abajo. Calcular la tabla de anlisis de varianza.
7-62
Dr. Hctor Quevedo Uras
Tabla mostrando las horas de alivio con las 5 tabletas de aspirinas. (Elaboracin
propia)
Tipos de tabletas
A B C D E
5 9 3 2 7
4 7 5 3 6
8 8 2 4 9
6 6 3 1 4
3 9 7 4 7
7-63
Dr. Hctor Quevedo Uras
Tabla mostrando los resultados del muestreo del DBO en mg/L. (Elaboracin
propia).
20 25 28 31
17 25 31 15
18 26 34 12
10 14 17 24
7-64
Dr. Hctor Quevedo Uras
7-65
Dr. Hctor Quevedo Uras
Millas 14 3 17 16
16 5 20 18
18 12 22 20
14 8 24 17
22 7 26 21
9 6 18 16
6 9 22 17
4 11 21 22
7 11 20 19
16 9 18 16
7-66
Dr. Hctor Quevedo Uras
(b) Hacer una tabla de anlisis de varianza que incluya los valores de la F
calculada, la F tabulada y el valor de p.
7.13. El libro de Montgomery et al. Probabilidad y Estadstica Aplicadas a la
Ingeniera discute una investigacin para determinar el consumo de gasolina (en
millas por litro) de 4 coches. Para esto, se agrupan los 4 tipos de autos tratando de
homogenizar o de control las variables que pudieran afectar el consumo de
gasolina (bloqueo para eliminar las variables no deseables). Las variables
controladas son caballajes del motor, mismo rodaje de llantas, mismo tipo de
carburador, mismo tipo de aceite, mismo tipo de mantenimiento, mismo peso,
mismas temperaturas ambientales, mismo millaje, edad del motor, tamao del
motor, etc. Probar la hiptesis de que no hay diferencias en el millaje de los coches
probados usando = 0.01. Calcular el valor de p. (Montgomery, 1996).
Tabla de datos de los millajes por litro de los 4 coches probados.
Millaje Totales por Promedios por
Coche no. tratamiento tratamiento
1 2 3 4 5 Yi. Yi.
7-67
Dr. Hctor Quevedo Uras
Industrial higiene Association Journal (vol. 37, 1976, pags. 418-422), la cual
describe una prueba de campo para detectar la presencia de arsnico en muestras
de orina. La prueba ha sido propuesta para su uso entre trabajadores forestales
debido al uso cada vez mayor de arsnicos orgnicos en dicha industria. El
experimento compara los resultados obtenidos con la prueba al ser efectuada por
un inexperto y un entrenador experimentado con el anlisis efectuado en un
laboratorio remoto. Para la prueba se escogen cuatro sujetos, los cuales son
considerados como bloques. La variable de respuesta es el contenido de arsnico
(en ppm) en la orina del sujeto. Los datos son los siguientes:
Tabla mostrando los datos del problema.
Sujeto
___________________________________________________
Prueba 1 2 3 4
__________________________________________________________________
Inexperto 0.05 0.05 0.04 0.15
Experto 0.05 0.05 0.04 0.17
Laboratorio 0.04 0.04 0.03 0.10
__________________________________________________________________
Fuente: Montgomery et al. Probabilidad y Estadstica Aplicadas a la Ingeniera
(1996)
7-68
Dr. Hctor Quevedo Uras
Nivel de fertilizante
_______________________________________
Nivel de agua Nada Bajo Mediano Alto
__________________________________________________________________
Poca agua 3.0 3.3 3.7 3.1
Mucha agua 2.3 4.0 4.3 5.0
__________________________________________________________________
7-69
Dr. Hctor Quevedo Uras
7.17. En un estudio de anlisis de varianza de tres vas se dan los siguientes datos:
SSa = 22.63, SSb = .003, SSc = .40, SSab = .40, SSac = .07, SSbc = .0.063, SSe =
.001 y SSt = .90. Para el factor A se usaron cuatro niveles, para el factor B se
usaron dos niveles y para el factor C se usaron 2 niveles. Asumir dos muestras con
cada nivel. Usando = 0.05, hacer lo siguiente:
(a) Construir una tabla de ANOVA
(b) Identificar las interacciones significativas e interpretarlas acordemente
7.18. Este es un estudio del texto de Applied Statistics: Anlisis of Variance and
Regression de Dunn y Clark. Esta investigacin est relacionada con un estudio de
la inteligencia de los nios con sntomas cardiacos de tipos acianticos y
cianticos. Para esto, los cambios en el coeficiente de inteligencia se midieron, es
decir, despus de operarse y antes de operarse. Los resultados se dan como sigue:
Tabla mostrando los resultados de los cambios en el coeficiente de inteligencia.
_________________________________________________________________
Operacin Acianticos Cianticos
_________________________________________________________________
No 9 2
-1 1
-10 -4
3 -5
-2 0
Si -7 5
-7 10
-12 9
-13 2
-12 15
__________________________________________________________________(
a) Usar el modelo de ANOVA ms apropiado para este estudio
7-70
Dr. Hctor Quevedo Uras
2 8 12 17
10 14 16
8 13 17
3 9 14 16
10 14 18
12 16 21
__________________________________________________________________
Aplicar la funcin de ANOVA ms apropiada para este experimento y sacar las
conclusiones debidas.
7-71
Dr. Hctor Quevedo Uras
7.20. Este estudio est encaminado para que el lector adquiera destreza en el
cumplimiento del llenado de tablas de anlisis de varianza. Para esto completar la
siguiente tabla de ANOVA y decir que diseo se us.
Tabla mostrando los datos del problema.
__________________________________________________________________
Fuente de SS g.l. MS Fcalc. Ftab. Valor p
Variacin
__________________________________________________________________
Debido a los 2000 10
tratamientos
Debido a las 1200
columnas
Debido a los 7400 5
renglones
Residual 25
_________________________________________________________________
Total 12000 40
7-72
Dr. Hctor Quevedo Uras
n = 2. Con esta informacin hacer una tabla de anlisis de varianza y sacar las
conclusiones debidas.
7.23. Se hace un estudio hipottico relacionado con la medicin de concentraciones
de partculas atmosfricas emitidas por una fuente industrial, esto es, usando un
modelo de difusin atmosfrica. Para tales fines se seleccionaron dos tipos
diferentes de muestreadores, cuatro diferentes alturas y cuatro diferentes distancias
viento abajo de la fuente emisora. Por ejemplo, llamemos las cuatro distancias el
factor A (es decir I = 4 distancias de 500, 1000, 1500 y 2000 metros). Las
concentraciones se midieron con dos tipos marcas diferentes de sensores, cuyo
factor lo llamaremos B (es decir, J = 2). Adems, se seleccionaron cuatro alturas
diferentes cuyo factor lo denominaremos C (K = 4 alturas de 100, 200, 300 y 500
metros). Para todo esto, se hicieron L= 3 observaciones para cada una de las 32
combinaciones de niveles de los tres factores (4 x 2 x 4) y para un total de 96
observaciones. La tabla de abajo muestra los resultados de las mediciones. Asumir
= 0.05. Para esto, hacer los siguientes clculos:
(a) Establecer el modelo apropiado con las suposiciones
(b) Hacer pruebas de significancia sobre los factores principales, v.g., distancia,
marcas de sensores y posicin de los sensores
(c) Hacer pruebas de significancia sobre todas las interacciones
7-73
Dr. Hctor Quevedo Uras
7.24. El texto Applied Linear Statistical Models de los autores Kutner, Nachtsheim,
Meter y Li explica un problema relacionado con un fabricante de automviles,
quien desea estudiar los efectos entre diferentes conductores de autos (factor A, i =
7-74
Dr. Hctor Quevedo Uras
7-75
Dr. Hctor Quevedo Uras
7-76
Dr. Hctor Quevedo Uras
7-77
Dr. Hctor Quevedo Uras
7-78
Dr. Hctor Quevedo Uras
Lquidos
Inflamables
Sum TCDF 4.9 26 7.8 18 5.8 9 13 13
Sum PeCDF 4.2 31 11 22 7.0 12 17 24
Sum HxCDF 3.5 31 11 28 8.0 14 18 19
Sum HpCDF 9.1 103 32 80 32 41 47 62
OCDF 3.8 19 6.4 18 6.6 7.0 6.7 6.7
______________________________________________________________________________
Fuente: Berthouex, P. Mac y L. C. Brown. Statistics for Environmental Engineers
Lewis Publishers. CRC Press, Inc. (1994).
7-79
Dr. Hctor Quevedo Uras
(a) Generar una matriz con los datos de la tabla de arriba e introducirlos en el
programa Minitab.
(b) Hacer una tabla de anlisis de varianza
(c) Hacer pruebas de significancia sobre los cuatro factores principales, v.g.,
periodos de tiempo, muestreadores, grupos de sustancias txicas y niveles de
clorinacion
(d) Hacer pruebas de significancia sobre todas las interacciones
(e) Sacar todas las conclusiones pertinentes
7.30 Se hace un estudio del control de la contaminacin del aire, es decir, usando
sistemas de control de partculas para hornos de cemento. Para esto se usan
diferentes tipos de precipitadores electrostticos (factor A), es decir, precipitadores
de placa de alambre, precipitadores de placa plana y precipitadores tubulares.
Adems se usaron enfriadores de aspersin y colectores mecnicos (factor B). La
finalidad de este experimento factorial fue para ver la eficiencia de coleccin de las
partculas usando los anteriores factores. Construir una tabla de anlisis de
varianza tomando en consideracin la siguiente informacin: Cuadrado medio del
primer factor fue igual a 2.30; el cuadrado medio del segundo factor medio fue
igual a 5.00; cuadrado medio de la interaccin fue de 0.12; cuadrado medio del
error fue de 0.075. Asumir = 0.05. Completar la tabla de ANOVA de abajo
calculando los siguientes valores.
(a) Los valores de Fcalc. para los efectos principales y para el efecto de interaccin
(b) Los valores de Ftab. para los dos factores principales y para la interaccin
(c) Los valores de p para cada uno de los factores principales y para la interaccin
(d) Decir si los efectos principales afectan la eficiencia de los factores A y B
7-80
Dr. Hctor Quevedo Uras
(e) Decir si hay interaccin entre los factores bajo consideracin y, si la hay,
explicar porque ocurri as.
Tabla de anlisis de varianza para el experimento de los precipitadores
electrostticos.
Fuente de g. l. Suma de Cuadrado Fcalc. Ftab. Valor
variacin cuadrados medio de p
Primer factor 2.30
Segundo factor 5.00
Interaccin 0.12
Error 12 0.075
Total
7-81
Dr. Hctor Quevedo Uras
CAPITULO 8
Regresin lineal simple y mltiple
Suposiciones del modelo de regresin lineal.- Ecuaciones normales para
calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de
regresin.- Coeficiente de determinacin mltiple R2 de la muestra que estima
a 2 el coeficiente de determinacin poblacional.- Coeficiente de correlacin R
de la muestra que estima a , el coeficiente de correlacin poblacional.-
Intervalo de confianza para el coeficiente poblacional componente de la
lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.-
Intervalo de confianza para el parmetro poblacional , el intercepto de la
ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a.- Hiptesis
nula de Ho: = o contra las hiptesis alternativas de H1: < 1 y H2: > 1.-
Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: o, H2:
> o, y de H3: < o.- Intervalo de confianza para Y|X de la lnea de regresin
poblacional estimada por Y.- Regresin y correlacin mltiple.- Mtodos para
validar el modelo de regresin lineal simple y mltiple: a travs de estadstica de
inferencias y a travs del anlisis grfico de los residuales estandarizados.
Procedimiento de regresin mltiple usando el programa Minitab.-
El objetivo de estudiar regresin lineal simple es para obtener el modelo de
regresin ms apropiado, es decir, una ecuacin de regresin lineal simple o
mltiple para fines de prediccin y estimacin. Los componentes de esta ecuacin
de regresin lineal, con solo una variable independiente, tambin llamado modelo
lineal de primer orden, son la variable dependiente Y o funcin de respuesta y, la
variable independiente X. El modelo de esta ecuacin, que describe la relacin de
la variable X con la variable Y, se llama la ecuacin de regresin de Y sobre X y, la
grfica de esta funcin, se llama la curva de regresin.
8-1
Dr. Hctor Quevedo Uras
Donde:
Y = variable dependiente poblacional (tambin se usa la anotacin y)
o = intercepto en la ordenada
1 = pendiente de la lnea
x1 = variable independiente
= error aleatorio con promedio de 0 y varianza 2 constante. Este valor de es la
diferencia entre el valor terico de Yi y el valor de Y calculado u observado. Las
condiciones de son de que este parmetro debe estar normalmente distribuido; sus
valores deben de ser independientes uno del otro y la varianza de es Var() = 2
n = nmero de (x, y) pares de observaciones
La ecuacin de la lnea de regresin muestral que estima a modelo de regresin
poblacional (8-1) de arriba se da como:
Y = a + bx + e (8-2)
Donde:
Y = valor de la variable dependiente de la muestra
a = intercepto en la ordenada
b = pendiente de la lnea
e = error o residual de la muestra denotado por ei = yi - Yi. Esta estadstica es la
estimadora del parmetro
8-2
Dr. Hctor Quevedo Uras
8-3
Dr. Hctor Quevedo Uras
regresin es mucho menor, que la dispersin de los puntos con respecto a la lnea
horizontal de y , entonces, se puede concluir que la ecuacin de la lnea de
regresin da un buen ajuste para los datos de la muestra (Daniel et al. 1989).
Como se dijo antes, el enfoque objetivista es la otra manera que se usa para
evaluar el modelo de regresin lineal, esto es, a travs de anlisis estadsticos. Para
esto, se pueden usar las siguientes funciones estadsticas:
(a) Coeficiente de determinacin lineal R2 (o r2), el coeficiente de correlacin lineal
R, s y PRESS.
(b) Anlisis de varianza simple (ANOVA), para probar los coeficientes del modelo
de regresin (), para , etc.
(c) Intervalos de confianza para 2, para o, i, y|x, etc.
Tipos de correlacin lineal
1. Correlacin simple que consiste de dos variables, una dependiente (Y) y la otra
independiente (X). Dentro de esta categora tenemos:
(a) Correlacin directa. Esta correlacin consiste en el incremento en una variable la
cual es acompaada por el incremento de otra variable (correlacin positiva).
(b) Correlacin inversa. Esta correlacin consiste en el incremento de una variable la
cual es acompaada por el incremento de otra (correlacin negativa).
(c) Correlacin no lineal. En esta correlacin no hay ninguna asociacin entre las dos
variables.
2. Correlacin mltiple. Aqu, hay ms de dos variables. Una variable es
dependiente (Y), mientras que las otras son independientes X1, X2,, Xk, etc.
Las figuras de abajo representan varios tipos de correlaciones.
8-5
Dr. Hctor Quevedo Uras
Fig. 8.1. Diagramas esparcidos con lneas de cuadrados mnimos. La Figura (a)
representa una lnea recta con X fija; la Figura (b) representa lnea no recta con X fija;
la Figura (c) representa una distribucin adjunta con lnea recta; la Figura (d)
representa una distribucin adjunta con lnea no recta; la Figura (e) representa un
diagrama donde no hay asociacin entre las dos variable y; la Figura (f) representa
una relacin causal. Las otras dos grficas representan correlaciones perfectas.
(Elaboracin propia)
8-6
Dr. Hctor Quevedo Uras
Figura 8.2. La figura (a) representa la funcin exponencial; la figura (b) representa la
funcin de potencia, la figura (c) representa una funcin recproca y, la figura (d)
representa una funcin hiperblica. (Elaboracin propia)
8-7
Dr. Hctor Quevedo Uras
8-8
Dr. Hctor Quevedo Uras
relacin lineal entre Y y X, mientras que un valor cercano a uno indica un ajuste
lineal perfecto. Aqu, sin embargo, es necesario aclarar que, un valor alto de R2, no
necesariamente indica un buen ajuste del modelo de regresin, sino hasta que se
hacen todas las pruebas objetivistas y subjetivas. La funcin que calcula R2 es:
R2 = (xy)2 / x2y2 (8-11)
= 1 SSe / SSt (8-12)
Donde xy, x2 y y2 se dan por las ecuaciones (8-8), (8-8) y (8-10) descritas para
la ecuacin (8-11). Adems, para la ecuacin (8-12) SSe es la suma de los
cuadrados del error o residual y SSt es la suma de los cuadrados del total, mismos
que se describen en el formato de la tabla de ANOVA.
Tambin hay el llamado coeficiente R2 de determinacin ajustado. Esta es
una versin ajustada de R2, el cual busca remover la distorsin debida a un tamao
de muestra pequeo. Se define como:
R2ajustada = 1 [(1 R2) (n 1)/(n 2)] (8-13)
Donde R2 ya se defini y n es el tamao de la muestra
Coeficiente de correlacin R de la muestra que estima a , el coeficiente de
correlacin poblacional
El coeficiente de correlacin R, que estima a , tambin se llama coeficiente de
correlacin de Pearson. Este coeficiente es un ndice de la fuerza de la asociacin
lineal entre las variables X e Y. El coeficiente de correlacin R es:
R= xy (8-14)
x y
2 2
8-9
Dr. Hctor Quevedo Uras
x x
2 2
b t[1-/2;n-2] s / < < b + t[1-/2;n-2] s / (8-15)
Donde:
b = xy / x2
t[1-/2;n-2] = valor de la distribucin de t de Estudiante
x2 = X2 (X)2 / n
( y b xy )
2
s= (8-16)
n2
y ( y )
2 2
(8-18)
Donde:
8-10
Dr. Hctor Quevedo Uras
a ya se defini anteriormente
t[1-/2;n-2] = a un valor usando la distribucin de t de estudiante con = n 2 grados
de libertad
s = de la ecuacin (8-16)
Hiptesis nula Ho: = o contra las hiptesis alternativas H1: < 1 y H2: > 1.
Para esta prueba tambin se usa la distribucin de t de Estudiante con = n 2
grados de libertad, es decir:
t = (b o) / s/x2 (8-19)
Donde:
t = la estadstica de la distribucin de t de Estudiante
o = un valor dado
b = pendiente de la lnea
Hiptesis nula Ho: = o contra las hiptesis alternativas H1: o, H2: > o,
y H3: < o
Aqu, nuevamente, se usa la distribucin de t de Estudiante con grados de libertad,
= n 2. Para esto se usa la frmula de abajo:
(8-20)
8-11
Dr. Hctor Quevedo Uras
Donde:
o = un valor dado
s = ya definida anteriormente
a ya se defini anteriormente
Donde:
Yo = a + b Xo = valor de la lnea de regresin con un valor de Xo dado (8-22)
t[/2;n-2] = valor de la distribucin de t con un nivel de significancia de = .05 o bien
0.01 con = n 2 grados de libertad
a = ya definida anteriormente
s = ya definida anteriormente
Xo = un valor dado
X = promedio de la muestra
Hiptesis nula Ho: = 0 contra las hiptesis alternativas H1: > 0 y H2: < 0
Para hacer esta prueba usamos la distribucin de t de Estudiante con = n 2 grados
de libertad. La funcin estadstica usada para tales fines es:
x
2
t = (b bo) / s / (8-23)
Donde:
s = ya definida anteriormente
8-12
Dr. Hctor Quevedo Uras
b = intercepto en la ordenada Y
bo = un valor dado
y2 = Y2 (Y)2/n
xy = XY XY/n
o = 0
Aqu, tambin se tienen que calcular las regiones crticas usando la distribucin
de t, es decir, t[1-/2;], donde es el nivel de significancia deseado y, es el nmero de
grados de libertad, es decir, n - 1. Despus de esto, se compara el valor de tcalc., con el
valor crtico de ttab. y se sigue el mismo procedimiento para cualquier prueba de
hiptesis.
Hiptesis nula de Ho: = o contra las hiptesis alternativas H1: > 0 y H2: < 0
Para hacer esta prueba de hiptesis se usa la estadstica de t de Estudiante mostrada
abajo:
(8-24)
Donde:
s = ya definida anteriormente
Donde:
y2 = Y2 (Y)2/n
xy = XY XY/n
b = ya definida anteriormente
Aqu, tambin se tiene que establecer las regiones crticas usando la distribucin de t
de Estudiante. Estas regiones crticas son: t[1-/2;], donde es el nivel de significancia
usado.
8-13
Dr. Hctor Quevedo Uras
x y
2 2
R = xy / (8-26)
= n 2 grados de libertad
Aqu, nuevamente, para calcular las regiones crticas se usa la t de Estudiante, es
decir, t[/2;n-2].
Ejemplos de problemas usando regresin y correlacin lineal simple
Ejemplo #1. Este problema est relacionado con un estudio acerca de la cantidad de
precipitacin pluvial y la cantidad de contaminacin atmosfrica.
TABLA 8.0. Tabla mostrando los datos. (Elaboracin propia)
___________________________________________________________________
Lluvia (0.026) | 18 7 14 31 21 5 11 16 26 29
Remocin de contaminacin | 55 17 36 85 62 18 33 41 63 87
8-14
Dr. Hctor Quevedo Uras
2. Hacer una grfica con los residuales estandarizados versus valores ajustados de Y .
(El valor predecido o ajustado de Y i es el valor de Y que se esperara cuando se usa la
lnea de regresin. En otras palabras, los valores ajustados de Y 1, Y 2,.., Y n se obtienen
sustituyendo, sucesivamente, x1, x2, .., xn en la ecuacin de la lnea de regresin
estimada: Y i = o + 1xi, .., o + 1xn.
3. Hacer un histograma de residuales.
4. Hacer una grafica que muestre los residuales estandarizados versus renglones.
(e) Complementar la evaluacin del modelo con inferencias estadsticas, como:
1. Clculo del coeficiente de determinacin R2 y el coeficiente de correlacin R.
2. Hacer una tabla de anlisis de varianza (ANOVA).
3. Hacer una tabla con los coeficientes, los errores estndares, las pruebas de t, los
valores de p, y los intervalos de confianza para el intercepto y la pendiente.
Solucin:
(a) La variable dependiente es la remocin de contaminantes (Y) y la variable
independiente es la cantidad de lluvia (X). La figura de abajo muestra esta solucin:
Figura 8.3. Grfica mostrando Y versus X, con una lnea recta horizontal
correspondiente al valor del promedio de Y = 49.7000. (Elaboracin propia)
(b) Los valores de la estadstica descriptiva son:
X = 17.8000, Y = 49.7000. Los valores mximos y mnimos de los valores de Y son
8-15
Dr. Hctor Quevedo Uras
0
50
-5
10
1 -10
-10 -5 0 5 10 20 40 60 80
Residual Fitted Value
2
Residual
1 -5
0 -10
-8 -4 0 4 1 2 3 4 5 6 7 8 9 10
Residual Observation Order
8-17
Dr. Hctor Quevedo Uras
8-18
Dr. Hctor Quevedo Uras
p = 0.79 es grande. Esto es apoyado por el valor de 0.79 de p y por un error estndar
de 3.79, relativamente grande; lo contrario ocurre con las pruebas estadsticas de la
pendiente, cuyo valor de t es grande y cuyo valor de p es muy pequeo.
Ejemplo #2. En un estudio de microbiologa ambiental, en muestras de agua, se
dieron los siguientes datos de la tabla de abajo. Estos datos se refieren al crecimiento
de una colonia de bacterias en un medio de cultivo.
TABLA 8.3. Tabla mostrando los datos. (Elaboracin propia)
Tiempo en das de | 3 6 9 12 15 18
inoculacin (X)
__________________________________________________________________
No. bacterias (Y) | 115,000 147,000 189,000 235,600 257,900 286,400
8-19
Dr. Hctor Quevedo Uras
Figura 8.5. Figuras mostrando los resultados del nmero de bacterias versus el tiempo
de incubacin. La grfica (a) muestra la relacin entre Y y X, con la lnea recta de Y ;
la grfica (b) muestra los residuos crudos versus X; la grfica (c) muestra los residuos
crudos versus los renglones y, la grfica (d) muestra los residuos crudos versus
residuos rezagados (Elaboracin propia).
8-20
Dr. Hctor Quevedo Uras
8-21
Dr. Hctor Quevedo Uras
Solucin:
(a) Los clculos preliminares son:
8-23
Dr. Hctor Quevedo Uras
Donde:
X = promedio
t[/2;n-2] = valor de t con = n 2 g.l.
t[.025;13] = 2.16
Xo = los diferentes valores que se le den a Xo para construir los lmites o bandas de
8-25
Dr. Hctor Quevedo Uras
Donde:
R = ya definida
Para calcular las regiones crticas se usa la distribucin de t, es decir, t[/2;n-2] = t.025;13 =
2.16
Entonces, usando la frmula de abajo y sustituyendo los valores da:
x y
2 2
R = xy / = 7.701 / (132.73)(0.6074) = 0.86
y R2 = 0.7396
2
t= n2 R/ 1 R
t = 13 (0.86) / .2604
= 6.07
Si se desea sacar el valor de p se busca 6.07 en la tabla de la distribucin de t con =
13 y con = .05, lo que da .025 < p < .05.
(h) Para graficar los datos aunados a la ecuacin de la lnea de regresin con una lnea
horizontal correspondiente al valor del promedio Y se hace usando un paquete de
computadora.
8-27
Dr. Hctor Quevedo Uras
1
Standardized Residual
-1
-2
2 4 6 8 10 12 14
Observation Order
8-28
Dr. Hctor Quevedo Uras
1
Standardized Residual
-1
-2
Fitted Value
Figura 8.7b. Est grfica muestra los residuales versus valores ajustados. Para que
el modelo de regresin sea aceptable, se requiere que: los puntos en la grfica sean
aleatorios en ambos lados de 0; no debe haber series de puntos que aumenten o
disminuyan; no debe haber predominancia de residuales positivos o negativos, ni
tampoco debe haber patrones de residuales que aumenten con valores ajustados
que aumenten. Como se ve, todas estas condiciones estn bien sustentadas.
Normal Probability Plot of the Residuals
(response is Log fuer)
1
Normal Score
-1
-2
-2 -1 0 1 2
Standardized Residual
Figura 8.7c. Grfica mostrando la prueba de normalidad. Los datos deben formar
una lnea recta si los residuales estn normalmente distribuidos (situacin que
ocurre aqu). De otra manera, la suposicin de normalidad se invlida.
8-29
Dr. Hctor Quevedo Uras
Solucin:
8-30
Dr. Hctor Quevedo Uras
35
DQO (Y)
30
25
27 32 37
Solidos suspendidos (X)
8-31
Dr. Hctor Quevedo Uras
1
Standardized Residual
-1
-2
-3
-4
25 30 35
Fitted Value
(b)
Normal Probability Plot of the Residuals
(response is DQO (Y))
1
Normal Score
-1
-2
-4 -3 -2 -1 0 1 2
Standardized Residual
Figura 8.9. La figura (a) prueba por la autocorrelacin o falta de independencia de los
datos. Adems, la figura (b) prueba por la normalidad de los datos.
8-32
Dr. Hctor Quevedo Uras
8-33
Dr. Hctor Quevedo Uras
8-34
Dr. Hctor Quevedo Uras
8-35
Dr. Hctor Quevedo Uras
2. Los valores de la variable aleatoria ei deben ser independientes uno del otro. No
debe haber colinialidad o correlacin en serie. Esto se revisa graficando los
residuos (estandarizados o crudos) en funcin de los renglones. Si no hay,
aproximadamente, los mismos residuos positivos y negativos en la grfica,
entonces, el modelo lineal calculado no es el apropiado y tendrn que buscarse
otras alternativas (como funciones polinomiales, cuadrticas, cbicas, etc.). Aqu
cabe notar que la suposicin de independencia es la ms importante que se pueda
violar, porque es la base para las pruebas estadsticas como la R2, el error de lo
estimado (s dado por el programa Minitab), ANOVA, etc.
3. Los valores de la variable aleatoria ei deben de tener la misma varianza. Esto se
llama homoscedasticidad. Esto se puede revisar visualmente graficando los
residuales estandarizados o no estandarizados (crudos) contra cada valor de las
variables independientes (Xi). Aqu, nuevamente, tiene que haber la misma
cantidad de valores positivos y negativos expresados en la grfica. Aqu, sin
embargo, existen otros mtodos para revisar por el problema de
heteroscedasticidad que se retomarn en el captulo de regresin polinomial.
Otros investigadores estadsticos (Devore, 2000) sugieren cuatro grficos de
diagnstico subjetivo, para la validacin del modelo de regresin mltiple. Estos
grficos de diagnstico son:
1. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores de Xi en la abscisa.
2. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores pronosticados (en la abscisa) por el programa de computadora usado.
3. El grfico de los valores pronosticados en la ordenada versus los valores de Yi en
la abscisa.
4. Grfico de normalidad de los residuos estandarizados versus los percentiles de z
8-36
Dr. Hctor Quevedo Uras
(valores de z).
5. Histogramas.
Aplicacin de anlisis objetivos para la evaluacin del modelo de regresin
Por otro lado, en cuanto al enfoque objetivista (estadstica inferencial) para la
validacin del modelo de regresin, ste est relacionado con el uso de estadsticas
como el coeficiente de determinacin mltiple R2 (o r2), el coeficiente de
determinacin ajustado R2ajustada, el error estndar de lo estimado, s, tablas de
anlisis de varianza, pruebas de t de Estudiante, intervalos de confianza, el criterio
de Mallow de Cp, PRESS, etc.
De esta manera, cuando se habla de coeficientes en el modelo de regresin
mltiple, existen cuatro tipos de coeficientes:
(1) El coeficiente de determinacin mltiple (R2)
(2) El coeficiente de correlacin mltiple (R)
(3) El coeficiente de determinacin ajustado (R2ajustada)
(4) El coeficiente parcial de correlacin mltiple (Rij.k)
Por ejemplo, el coeficiente de determinacin mltiple R2 es, tal vez, la
medida estadstica ms popular usada para medir, qu tan bien encaja el modelo de
regresin en los datos de la muestra. En realidad el uso de R2 es una tcnica para
medir la adecuacin de un modelo de regresin lineal mltiple. Esta estadstica se
puede definir como una proporcin o como un porcentaje. Como proporcin, sus
valores varan de cero a uno. Por ejemplo, si el valor de R2 est cercano a cero, esto
indica que no hay una relacin lineal entre Y y las Xs, mientras que, un valor
cercano a uno, indica una ajuste perfecto. Sin embargo, el valor de R2 no debe de
interpretarse ligeramente, sin el apoyo del error estndar de lo estimado (s), el
residual (PRESS), el criterio de Mallow (Cp) o los factores de variacin inflados
(variance inflation factors, VIF). Adems la validacin del modelo debe estar
8-37
Dr. Hctor Quevedo Uras
8-38
Dr. Hctor Quevedo Uras
8-39
Dr. Hctor Quevedo Uras
8-40
Dr. Hctor Quevedo Uras
TABLA 8.10. Tabla mostrando los mecanismos para una prueba de hiptesis
bilateral para los coeficientes individuales i incluidos en el modelo de regresin
mltiple. (Elaboracin propia)
Hiptesis nula: Ho:i = 0, hiptesis alternativa: H1:i 0
Valor del estadstico: t = bi / sbi
Regla de decisin:
Rechazar Ho: si t > t/2;n-(k+1) o bien si t < -t/2;n-(k+1).
No rechazar Ho: si t/2;n-(k+1) t t/2;n-(k+1)
Donde: i son los coeficientes de regresin individuales.
bi = estimadores de i
sbi = errores estndar
= nivel de significancia deseado
n = nmero de observaciones
k = nmero de variables independientes
t = funcin estadstica de t de Estudiante
Ejemplos aplicando la regresin y correlacin mltiple
Ejemplo #6. En la adsorcin de tierra y sedimento, la magnitud de la acumulacin
en forma condensada de los productos qumicos en la superficie es una
caracterstica importante que influye en la eficiencia de insecticidas y varios otros
productos qumicos. El artculo Adsorption of Phosphate, Arsenate,
Methanearsonate and Cacodylate by Lake and Stream Sediments: Comparison with
Soils (J. of Environ. Qual., 1984, pp. 499-504) presenta los siguientes datos en la
tabla de abajo. Aqu se toma Y como la variable dependiente, la cual denota el
ndice de adsorcin de fosfato, X1 es una de las variables independientes
denotando la cantidad de hierro extrable y, X2 es otra de las variables
independientes denotando la cantidad de aluminio extrable. (Devore, 2000)
8-41
Dr. Hctor Quevedo Uras
8-42
Dr. Hctor Quevedo Uras
Figura 8.10 Figura mostrando las grficas de los residuos estandarizados versus
valores esperados de z (1); grfica mostrando el residuo estandarizado versus la
variable independiente X1 (2); grfica mostrando el residuo estandarizado versus la
variable independiente X2 (3); grfica mostrando el residuo estandarizado versus el
valor de Y pronosticado (4) y, finalmente, grfica de Y pronosticada versus
adsorcin (5). (Elaboracin propia)
8-43
Dr. Hctor Quevedo Uras
8-45
Dr. Hctor Quevedo Uras
TABLA 8.15. TABLA mostrando los intervalos de confianza para este problema.
(Elaboracin propia)
_________________________________________________________________
Variable Lmite inferior (95%) Lmite superior (95%)
independiente
_________________________________________________________________
Intercepto -15.1149 0.4137
Hierro (X1) 0.0467 0.1789
Aluminio (X2) 0.1901 0.5079
__________________________________________________________________
8-46
Dr. Hctor Quevedo Uras
X1 | 4 4 4 6 3 6 3 2
X2 | 3 4 3 4 2 4 2 2
Y | 3 2 7 6 5 6 7 4
Solucin:
Abajo se dan los resultados de los tres modelos. Al juzgar por los resultados, se le
pide al lector que decida cual modelo es el ms apropiado.
8-48
Dr. Hctor Quevedo Uras
Analysis of Variance
Source DF SS MS F P
Regression 2 14.000 7.000 3.50 0.112
Residual Error 5 10.000 2.000
Total 7 24.000
Analysis of Variance
Source DF SS MS F P
Regression 2 0.1824 0.0912 5.63 0.052
Residual Error 5 0.0809 0.0162
Total 7 0.2634
Analysis of Variance
Source DF SS MS F P
Regression 3 0.1533 0.0767 3.48 0.113
Residual Error 5 0.1100 0.0220
Total 7 0.2634
8-49
Dr. Hctor Quevedo Uras
TABLA 8.19. Tabla mostrando los datos originales del problema. (Elaboracin
propia)
___________________________________________________________________________
C1 C2 C3 C4 C5 C6
___________________________________________________________________________
Y X1 X2 Log Y Log X1 Log X2
___________________________________________________________________________
1 3 4 3 0.477121 0.602060 0.477121
___________________________________________________________________________
2 2 4 4 0.301030 0.602060 0.602060
___________________________________________________________________________
3 7 4 3 0.845098 0.602060 0.477121
___________________________________________________________________________
4 6 6 4 0.778151 0.778151 0.060206
___________________________________________________________________________
5 5 3 2 0.698970 0.477121 0.301030
___________________________________________________________________________
6 6 6 4 0.778151 0.778151 0.602060
___________________________________________________________________________
7 7 3 2 0.845098 0.477121 0.301030
___________________________________________________________________________
8 4 2 2 0.602060 0.301030 0.301030
___________________________________________________________________________
8-50
Dr. Hctor Quevedo Uras
Yi X1 X2 X3 X4
8-51
Dr. Hctor Quevedo Uras
8-52
Dr. Hctor Quevedo Uras
8-53
Dr. Hctor Quevedo Uras
Total 24
8-55
Dr. Hctor Quevedo Uras
Regression Analysis: (Y) Temperatura versus (X1) Altitud, (X2) Longitud (X3)
The regression equation is: (Y) Temperatura = 99.2 - 0.00138 (X1) Altitud + 0.299 (X2)
Longitud - 2.29 (X3) Latitud
8-56
Dr. Hctor Quevedo Uras
Source DF SS MS F F crtica P
Regression 3 2048.54 682.85 70.07 F.05;3,12 = 3.49 <<< 0.001
Residual Error 12 116.94 9.74
Total 15 2165.48
2 2 99
95
90
1
Standardized Residual
1
Standardized Residual
80
70
Percent
60
0 0 50
40
30
20
-1 -1
10
-2 -2 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 20 30 40 50 60 -3 -2 -1 0 1 2 3
Observation Order Fitted Value Standardized Residual
Figura 8.12. La Figura (a) muestra los residuales vs. rdenes; la figura (b) muestra
los residuales vs. los valores ajustados y la figura (c) da la prueba de normalidad.
(c) En conclusin, de acuerdo a los valores del coeficiente de determinacion R2 =
95.6% hay un buen ajuste del modelo. El valor de F de la ANOVA rechaza la
hiptesis de igualdad de promedios (de altitud, longitud y latitud), con un valor de
p muy significativo. Las pruebas de T son significantes, lo que sugiere que no hay
problemas de multicolinealidad. Anlogamente, los valores bajos de VIF sugieren
indican que no hay problemas de multicolinealidad. Esto, aunado, a los signos de
las variables regresoras de la ecuacin de regresin, los cuales si estn de acuerdo a
una lgica a posteriori. El valor de la funcin de Durbin-Watson Statistic o de
correlacin en serie igual a 1.53384 indica que no hay problemas de
autocorrelacin (aunque aqu, esto se puede ignorar porque el problema no
involucra series de tiempo). En cuanto a la Figura 8.12 la grfica (a) muestra los
residuales versus los rdenes, en la cual hay aleatoriedad de los datos.
Anlogamente, la grfica de residuales vs. valores ajustados (b) indica alateoridad
8-57
Dr. Hctor Quevedo Uras
8-58
Dr. Hctor Quevedo Uras
__________________________________________________________________________________________
(c) La Figura 8.13 de abajo muestra las concentraciones de ozono en funcin de las
temperaturas con los valores de los residuales ei.
8.13. Figura mostrando la medicion de cada uno de los valores residuales con la
lnea de regresin. (Elaboracin propia).
8-59
Dr. Hctor Quevedo Uras
Ejercicios Captulo 8
8.1. Los datos de abajo muestran las emisiones de xidos de nitrgeno (NOx)
provenientes de calderas de plantas elctricas.
Tabla mostrando los datos para el problema. (Elaboracin propia)
__________________________________________________________________
MBtu/hr-ft2 (X) |100 125 125 150 150 200 200 250 250 300 300 350 400 400
NOx (Y) |150 140 180 210 190 320 280 400 430 440 390 600 610 570
8-61
Dr. Hctor Quevedo Uras
Ver cul modelo de regresin encaja mejor en los datos, al juzgar por las estadsticas
y por los anlisis grficos, es decir, usando una aproximacin lineal, una logartmica
y una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln(a) + b(LnX).
(a) Usar una aproximacin lineal como Y = a + bX y, adems, calcular el coeficiente
de determinacin R2. (Y = 880.4 9.6 (X), R2 = 0.699)
(b) Usar una aproximacin logartmica como Y = a + b Ln (X) y adems, calcular el
valor de R2. (Y = 1331.08 557.03 Lg X)
(c) Usando una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln (a)
+ b (Ln X) y, adems, calcular R2 (R2 = 0.829)
8.4. En un estudio de qumica analtica, en la tabla de abajo se da la relacin entre la
temperatura y la molaridad (en moles por litro) de una sustancia. Para esto hacer los
siguientes:
(a) Estimar el modelo de regresin ms apropiado basado en anlisis estadsticos de
R2, R2ajustada, PRESS, s, y Cp y en anlisis grficos subjetivos de los valores
8-62
Dr. Hctor Quevedo Uras
residuales.
Tabla mostrando la informacin requerida.
_________________________________________________________________
Temperatura oC | 4.3 4.5 4.8 5.5 5.7 5.9 6.4 6.7 7.5 7.9
_________________________________________________________________
Molaridad | 12.1 12.5 12.9 13.0 13.1 14.0 14.2 14.8 15.0 15.5
_________________________________________________________________
Mtodo A | 5 6 6 8 10 10 11 11
Mtodo B | 8 9 9 11 13 13 14 14
8-63
Dr. Hctor Quevedo Uras
mtodos para el anlisis (en g/L) del berilio, es decir, el mtodo espectromtrico de
absorcin atmica (mtodo 1) y el mtodo aluminon (mtodo 2). Los resultados de
los anlisis de los dos mtodos se dan en la tabla de abajo. Hacer los siguientes
clculos:
(a) Hacer un estudio estadstico objetivista, es decir, estimando los valores de R2,
R2ajustada, PRESS, s y tablas de ANOVA. Complementar el estudio haciendo anlisis
subjetivistas.
Tabla mostrando los resultados de los mtodos 1 y 2 para la medicin del berilio.
(Elaboracin propia)
Mtodo 1 | 0 3 4 5 9 12 15 17 20 20
Mtodo 2 | 1 7 11 19 24 31 31 35 41 41
8-64
Dr. Hctor Quevedo Uras
8-65
Dr. Hctor Quevedo Uras
8-66
Dr. Hctor Quevedo Uras
8-67
Dr. Hctor Quevedo Uras
(Y) | 4 7 8 8 10 11 16 26 21 9 31 30 75 90
8-68
Dr. Hctor Quevedo Uras
Nota: Los sistemas de flujo fretico (reas pantanosas) se usan como sistemas de
tratamiento natural, porque tienen la capacidad de degradar las concentraciones
carbonosas de DBO actuando como especie de lagunas de oxidacin. En Minatitln
y Coatzacoalcos, Veracruz, se usan estos tipos de tratamientos naturales.
Solucin:
De acuerdo a la tabla de arriba se le pide al lector decidir, cul modelo es superior.
8.11. El texto de Daniel, W.W., James C. Terrell Business Statistics (1989), p. 257
mencionan el problema del envenenamiento del ganado vacuno, por los insecticidas
el cual es un problema muy serio, porque los pesticidas tienen la facultad de
acumularse en los tejidos de los animales y, de ah se pasan a aquellas personas que
los consumen. As, en aos recientes, los ambientalistas se han preocupado mucho
por los efectos, en el medio ambiente, debido al uso indiscriminado de insecticidas.
Es verdad que los insecticidas matan los insectos, pero tambin matan todo lo dems.
De esta manera, los insecticidas contaminan los frutos de las plantas, a los animales y
tambin a la gente. Los investigadores Mount y Oehmet estudiaron los efectos de los
insecticidas en las ovejas relacionada con la actividad enzimtica en el cerebro.
Adems, de otros anlisis estadsticos, estos cientficos derivaron una lnea de
regresin que describe las relacin entre la actividad enzimtica en el cerebro de las
ovejas (Y) y el tiempo, en horas, despus de que las ovejas has sido expuestas a los
insecticidas (X). La funcin de la lnea de regresin estimada por estos cientficos se
da abajo.
Y = 27.32 + 1.36 X
Basando el criterio en esta ecuacin, estimar lo siguiente:
(a) Si despus de que han pasado 30 horas, cuando las ovejas han sido expuestas a
los insecticidas, Cul sera el valor de la actividad enzimtica? (68.12)
(b) Si el coeficiente de correlacin muestral se da como R = 0.86 y, el coeficiente de
8-69
Dr. Hctor Quevedo Uras
8-70
Dr. Hctor Quevedo Uras
Tabla mostrando los volmenes y las presiones del gas. (Elaboracin propia)
Sugerencias: Se dan los siguientes factores de conversin: 1 atm = 14.7 lbs/in2 = 760
torr = 1.0668 kg/cm2; 1 cm2 = 0.16 in2; 1.0567 cuartos = 1 L; 1 pulgada cuadrada =
6.25 cm2; 1 m3 = 1000 L. = 106 cm3.
8.13. Se coleccion una muestra de 33 casos de una descarga de aguas residuales
municipales. Esta muestra se analiz para la demanda bioqumica de oxgeno de 5
das (DBO5), en libras por da, y la demanda qumica de oxgeno, DQO (en libras por
da). La tabla de abajo muestra la informacin requerida.
Tabla mostrando las mediciones de DBO5 y DQO. (Elaboracin propia)
Demanda qumica de oxgeno Demanda bioqumica de oxgeno
(lbs/da) (lbs/da)
8-71
Dr. Hctor Quevedo Uras
Hacer lo siguiente:
(a) Ver su existe una correlacin significante usando los valores R del DBO5 y el
DQO. (R = 0.9677, R2 = 0.9360)
(b) Interpretar el valor del coeficiente de correlacin R y el coeficiente de
determinacin R2. Usar el programa Minitab o EXCEL para hacer el clculo pedido.
8.14. Considerar los datos de abajo relacionados con el peso del vehculo y el
rendimiento de gasolina. El peso del auto se da en toneladas y, el rendimiento del
combustible se da en millas galn. Los datos se dan abajo.
8-72
Dr. Hctor Quevedo Uras
Tabla mostrando los datos del los modelos vehiculares en funcin del peso en
toneladas (X), y de millas por galn (Y).
________________________________________________________________
Modelo vehicular Peso (toneladas) Millas/galn
8-73
Dr. Hctor Quevedo Uras
rendimiento de gasolina.
(b) Estimar el coeficiente de correlacin de la muestra R (llamado tambin
coeficiente de correlacin de producto-momento de Pearson) y el coeficiente de
determinacin muestral R2.
(c) Hacer una grfica que vaya en funcin de Y y X, trazarla en la grfica y tambin
trazar la lnea horizontal usando el valor del promedio de Y.
(d) Hacer una tabla de ANOVA.
(e) Estimar los intervalos de confianza para y las probabilidades
correspondientes para cada uno de stos.
(f) Qu otros factores tendran que considerarse, para que el modelo de regresin
fuera ms confiable?
8.15. Los metales pesados como el Hg, Cr, Pb, etc., pueden interferir con el
tratamiento biolgico en las plantas municipales de aguas residuales domsticas. En
este estudio se hicieron mediciones mensuales en una planta modelo de tratamiento
de las concentraciones de cromo, Cr, en mg/L, tanto en el efluente como en la
entrada. Los resultados de las concentraciones de Cr se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboracin propia)
Entrada (X) | 250 290 270 100 300 410 110 130 1100
(g/L)
Efluente (Y) | 19 10 17 11 70 60 18 30 180
(g/L)
8-77
Dr. Hctor Quevedo Uras
8-78
Dr. Hctor Quevedo Uras
8.23. El texto Applied Statistics: Analysis de Variance and Regression de Dunn et al.
1974) hace un estudio mdico relacionado con el cambio de la hemoglobina de la
sangre de operaciones de la glndula tiroides, el cual est relacionado con la duracin
de la operacin quirrgica y el cambio en el porcentaje de la hemoglobina de la
sangre. Los datos se dan en la tabla de abajo.
8-79
Dr. Hctor Quevedo Uras
8-80
Dr. Hctor Quevedo Uras
8-81
Dr. Hctor Quevedo Uras
8-82
Dr. Hctor Quevedo Uras
15 0 21
15 0 18
21 0 22
28 1 24
30 1 25
35 1 25
40 1 26
35 2 34
30 2 25
45 2 38
50 3 44
60 3 51
45 4 39
60 4 54
50 5 55
________________________________________________________________
Fuente: Daniel et al. 1989. Business Statistics
Hacer los siguientes clculos:
(a) Encontrar la ecuacin de regresin de los cuadrados mnimos.
(b) Computar R2y.12.
(c) Probar Ho:1 = 0 y Ho:2 = 0. Dejar que = 0.05 y calcular el valor de p para
cada prueba.
(d) Computar el 95% de intervalo de confianza para 2.
(e) Dejar que x1 = 2 y x2 = 25 y calcular y.
(f) Encontrar el intervalo de 95% para y.
8.27. La capacidad de los ecologistas para identificar regiones de mxima riqueza
de las plantas podra tener un impacto sobre la preservacin de la diversidad
gentica. Esto es uno de los objetivos de los ecologistas quienes estn preocupados
8-83
Dr. Hctor Quevedo Uras
8-84
Dr. Hctor Quevedo Uras
1 2 3 4 5 6 7 8 9
Criterios _________________________________________________________
R2k | .354 .453 .511 .550 .562 .570 .572 .575 .575
MSEk | 2295 1948 1742 1607 1566 1541 1535 1530 1532
Cpk | 314 173 89.6 35.7 19.9 11.0 9.4 8.2 10.0
__________________________________________________________________
Slidos suspendidos| 18 7 14 31 21 5 11 16 26 29
DBO5 | 55 17 36 85 62 18 33 41 63 87
8-85
Dr. Hctor Quevedo Uras
DQO (lbs/Da)| 494 444 528 396 532 308 350 456 440 544 310 538
| 480 500 396 486 556 600 428 440 291 490 546 582
| 368 386 400 347 278 304
DBO (lbs/Da | 216 200 238 164 230 116 150 190 190 248 120 226
| 200 222 176 202 240 280 184 194 134 215 246 292
| 177 193 165 160 125 137
__________________________________________________________________
(a) Determinar R2 y R. (R2 = 0.9350, R = 0.967)
(b) Graficar los datos en papel de probabilidad y determinar lo siguiente:
(1) Determinar los valores de DBO y el DQO que excedern el 50% y el 90% de
las veces. (195 lbs/Da y 440 lbs/Da)
(2) Determinar los valores de DBO y del DQO que se lograrn el 90% de las veces.
8-86
Dr. Hctor Quevedo Uras
(3) Determinar los valores de DBO y del DQO que puedan ser excedidos el 10% de
las veces. (260 lbs/Da y 580 lbs/Da)
(4) Calcular el promedio y la desviacin estndar del DBO y del DQO.
(c) Evaluar el modelo de regresin aplicando enfoques subjetivistas, es decir, con
grficas de los valores residuales en funcin de valores ajustados (para la prueba de
independencia), pruebas de normalidad, etc.
8.31. Este es un problema adaptado del libro Introduccin al Anlisis de Regresin
Lineal de los autores Montgomery, Peck y Vining (2001). Este proyecto est
relacionado con un estudio de energa solar en el Tecnolgico de Georgia, Estados
Unidos. El proyecto involucra datos de pruebas de energa trmica con una
variable dependiente (y), que relaciona al flujo total de calor (Kwatts) y cinco
variables independientes que estn relacionadas con la insolacin (watts/m2), la
posicin del foco en direccin del este (en pulgadas), la posicin del foco en
direccin del sur (en pulgadas), la posicin del foco en direccin norte (en
pulgadas) y la hora del da. Para esto, estimar los siguientes enunciados:
(a) Probar el modelo de regresin que mejor ajuste a los datos.
(b) Evaluar el modelo de regresin seleccionado, es decir, a travs de criterios
estadsticos y complementar la decisin usando grficos subjetivistas.
La tabla de abajo muestra la informacin requerida para solucin todos los
enunciados requeridos por este problema.
8-87
Dr. Hctor Quevedo Uras
8-88
Dr. Hctor Quevedo Uras
235 20 19 86 95
231 27 17 85 90
285 40 20 83 105
270 55 20 82 83
296 60 20 87 90
312 68 21 89 94
295 75 20 83 92
292 80 20 81 92
263 70 20 58 105
271 50 15 79 100
283 40 15 80 90
256 30 15 79 88
8.33. Este es un problema adaptado del texto de Jay L. Devore (2001), en el cual se
da la informacin requerida para la seleccin del modelo de regresin superior,
basado en la inclusin del nmero de variables regresoras, seleccionado entre
8-89
Dr. Hctor Quevedo Uras
cuatro modelos candidatos. El ejemplo est relacionado con el calor acumulado del
endurecimiento del cemento tomado como la variable dependiente, en funcin de
los predictores x1 = % de aluminato de tricalcio, x2 = % de silicato de tricalcio, x3 =
% ferrato de aluminio y x4 = silicato de dicalcio. Se da un tamao de muestra igual
a 13 observaciones y, donde la suma de los cuadrados del total es igual a 2,715.76.
Para esto, se pide al lector llenar los faltantes de la tabla de abajo y decidir cual es
el modelo superior que tiene el nmero adecuado de variables regresoras.
Tabla mostrando la informacin. Llenar los faltantes.
No. de regresores k Regresor (es)k SSEk R2k R2(ajustada)k Cpk F(calc.)k
1 x4 880.85 0.676 0.647 138.2
2 x1, x2 58.01 2.7
3 x1, x2, x3 0.982 0.876 3.2
4 x1, x2, x3, x4 0.982 4.0
8-90
Dr. Hctor Quevedo Uras
CAPITULO 8
Regresin lineal simple y mltiple
Suposiciones del modelo de regresin lineal.- Ecuaciones normales para
calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de
regresin.- Coeficiente de determinacin mltiple R2 de la muestra que estima
a 2 el coeficiente de determinacin poblacional.- Coeficiente de correlacin R
de la muestra que estima a , el coeficiente de correlacin poblacional.-
Intervalo de confianza para el coeficiente poblacional componente de la
lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.-
Intervalo de confianza para el parmetro poblacional , el intercepto de la
ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a.- Hiptesis
nula de Ho: = o contra las hiptesis alternativas de H1: < 1 y H2: > 1.-
Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: o, H2:
> o, y de H3: < o.- Intervalo de confianza para Y|X de la lnea de regresin
poblacional estimada por Y.- Regresin y correlacin mltiple.- Mtodos para
validar el modelo de regresin lineal simple y mltiple: a travs de estadstica de
inferencias y a travs del anlisis grfico de los residuales estandarizados.
Procedimiento de regresin mltiple usando el programa Minitab.-
El objetivo de estudiar regresin lineal simple es para obtener el modelo de
regresin ms apropiado, es decir, una ecuacin de regresin lineal simple o
mltiple para fines de prediccin y estimacin. Los componentes de esta ecuacin
de regresin lineal, con solo una variable independiente, tambin llamado modelo
lineal de primer orden, son la variable dependiente Y o funcin de respuesta y, la
variable independiente X. El modelo de esta ecuacin, que describe la relacin de
la variable X con la variable Y, se llama la ecuacin de regresin de Y sobre X y, la
grfica de esta funcin, se llama la curva de regresin.
8-1
Dr. Hctor Quevedo Uras
Donde:
Y = variable dependiente poblacional (tambin se usa la anotacin y)
o = intercepto en la ordenada
1 = pendiente de la lnea
x1 = variable independiente
= error aleatorio con promedio de 0 y varianza 2 constante. Este valor de es la
diferencia entre el valor terico de Yi y el valor de Y calculado u observado. Las
condiciones de son de que este parmetro debe estar normalmente distribuido; sus
valores deben de ser independientes uno del otro y la varianza de es Var() = 2
n = nmero de (x, y) pares de observaciones
La ecuacin de la lnea de regresin muestral que estima a modelo de regresin
poblacional (8-1) de arriba se da como:
Y = a + bx + e (8-2)
Donde:
Y = valor de la variable dependiente de la muestra
a = intercepto en la ordenada
b = pendiente de la lnea
e = error o residual de la muestra denotado por ei = yi - Yi. Esta estadstica es la
estimadora del parmetro
8-2
Dr. Hctor Quevedo Uras
8-3
Dr. Hctor Quevedo Uras
regresin es mucho menor, que la dispersin de los puntos con respecto a la lnea
horizontal de y , entonces, se puede concluir que la ecuacin de la lnea de
regresin da un buen ajuste para los datos de la muestra (Daniel et al. 1989).
Como se dijo antes, el enfoque objetivista es la otra manera que se usa para
evaluar el modelo de regresin lineal, esto es, a travs de anlisis estadsticos. Para
esto, se pueden usar las siguientes funciones estadsticas:
(a) Coeficiente de determinacin lineal R2 (o r2), el coeficiente de correlacin lineal
R, s y PRESS.
(b) Anlisis de varianza simple (ANOVA), para probar los coeficientes del modelo
de regresin (), para , etc.
(c) Intervalos de confianza para 2, para o, i, y|x, etc.
Tipos de correlacin lineal
1. Correlacin simple que consiste de dos variables, una dependiente (Y) y la otra
independiente (X). Dentro de esta categora tenemos:
(a) Correlacin directa. Esta correlacin consiste en el incremento en una variable la
cual es acompaada por el incremento de otra variable (correlacin positiva).
(b) Correlacin inversa. Esta correlacin consiste en el incremento de una variable la
cual es acompaada por el incremento de otra (correlacin negativa).
(c) Correlacin no lineal. En esta correlacin no hay ninguna asociacin entre las dos
variables.
2. Correlacin mltiple. Aqu, hay ms de dos variables. Una variable es
dependiente (Y), mientras que las otras son independientes X1, X2,, Xk, etc.
Las figuras de abajo representan varios tipos de correlaciones.
8-5
Dr. Hctor Quevedo Uras
Fig. 8.1. Diagramas esparcidos con lneas de cuadrados mnimos. La Figura (a)
representa una lnea recta con X fija; la Figura (b) representa lnea no recta con X fija;
la Figura (c) representa una distribucin adjunta con lnea recta; la Figura (d)
representa una distribucin adjunta con lnea no recta; la Figura (e) representa un
diagrama donde no hay asociacin entre las dos variable y; la Figura (f) representa
una relacin causal. Las otras dos grficas representan correlaciones perfectas.
(Elaboracin propia)
8-6
Dr. Hctor Quevedo Uras
Figura 8.2. La figura (a) representa la funcin exponencial; la figura (b) representa la
funcin de potencia, la figura (c) representa una funcin recproca y, la figura (d)
representa una funcin hiperblica. (Elaboracin propia)
8-7
Dr. Hctor Quevedo Uras
8-8
Dr. Hctor Quevedo Uras
relacin lineal entre Y y X, mientras que un valor cercano a uno indica un ajuste
lineal perfecto. Aqu, sin embargo, es necesario aclarar que, un valor alto de R2, no
necesariamente indica un buen ajuste del modelo de regresin, sino hasta que se
hacen todas las pruebas objetivistas y subjetivas. La funcin que calcula R2 es:
R2 = (xy)2 / x2y2 (8-11)
= 1 SSe / SSt (8-12)
Donde xy, x2 y y2 se dan por las ecuaciones (8-8), (8-8) y (8-10) descritas para
la ecuacin (8-11). Adems, para la ecuacin (8-12) SSe es la suma de los
cuadrados del error o residual y SSt es la suma de los cuadrados del total, mismos
que se describen en el formato de la tabla de ANOVA.
Tambin hay el llamado coeficiente R2 de determinacin ajustado. Esta es
una versin ajustada de R2, el cual busca remover la distorsin debida a un tamao
de muestra pequeo. Se define como:
R2ajustada = 1 [(1 R2) (n 1)/(n 2)] (8-13)
Donde R2 ya se defini y n es el tamao de la muestra
Coeficiente de correlacin R de la muestra que estima a , el coeficiente de
correlacin poblacional
El coeficiente de correlacin R, que estima a , tambin se llama coeficiente de
correlacin de Pearson. Este coeficiente es un ndice de la fuerza de la asociacin
lineal entre las variables X e Y. El coeficiente de correlacin R es:
R= xy (8-14)
x y
2 2
8-9
Dr. Hctor Quevedo Uras
x x
2 2
b t[1-/2;n-2] s / < < b + t[1-/2;n-2] s / (8-15)
Donde:
b = xy / x2
t[1-/2;n-2] = valor de la distribucin de t de Estudiante
x2 = X2 (X)2 / n
( y b xy )
2
s= (8-16)
n2
y ( y )
2 2
(8-18)
Donde:
8-10
Dr. Hctor Quevedo Uras
a ya se defini anteriormente
t[1-/2;n-2] = a un valor usando la distribucin de t de estudiante con = n 2 grados
de libertad
s = de la ecuacin (8-16)
Hiptesis nula Ho: = o contra las hiptesis alternativas H1: < 1 y H2: > 1.
Para esta prueba tambin se usa la distribucin de t de Estudiante con = n 2
grados de libertad, es decir:
t = (b o) / s/x2 (8-19)
Donde:
t = la estadstica de la distribucin de t de Estudiante
o = un valor dado
b = pendiente de la lnea
Hiptesis nula Ho: = o contra las hiptesis alternativas H1: o, H2: > o,
y H3: < o
Aqu, nuevamente, se usa la distribucin de t de Estudiante con grados de libertad,
= n 2. Para esto se usa la frmula de abajo:
(8-20)
8-11
Dr. Hctor Quevedo Uras
Donde:
o = un valor dado
s = ya definida anteriormente
a ya se defini anteriormente
Donde:
Yo = a + b Xo = valor de la lnea de regresin con un valor de Xo dado (8-22)
t[/2;n-2] = valor de la distribucin de t con un nivel de significancia de = .05 o bien
0.01 con = n 2 grados de libertad
a = ya definida anteriormente
s = ya definida anteriormente
Xo = un valor dado
X = promedio de la muestra
Hiptesis nula Ho: = 0 contra las hiptesis alternativas H1: > 0 y H2: < 0
Para hacer esta prueba usamos la distribucin de t de Estudiante con = n 2 grados
de libertad. La funcin estadstica usada para tales fines es:
x
2
t = (b bo) / s / (8-23)
Donde:
s = ya definida anteriormente
8-12
Dr. Hctor Quevedo Uras
b = intercepto en la ordenada Y
bo = un valor dado
y2 = Y2 (Y)2/n
xy = XY XY/n
o = 0
Aqu, tambin se tienen que calcular las regiones crticas usando la distribucin
de t, es decir, t[1-/2;], donde es el nivel de significancia deseado y, es el nmero de
grados de libertad, es decir, n - 1. Despus de esto, se compara el valor de tcalc., con el
valor crtico de ttab. y se sigue el mismo procedimiento para cualquier prueba de
hiptesis.
Hiptesis nula de Ho: = o contra las hiptesis alternativas H1: > 0 y H2: < 0
Para hacer esta prueba de hiptesis se usa la estadstica de t de Estudiante mostrada
abajo:
(8-24)
Donde:
s = ya definida anteriormente
Donde:
y2 = Y2 (Y)2/n
xy = XY XY/n
b = ya definida anteriormente
Aqu, tambin se tiene que establecer las regiones crticas usando la distribucin de t
de Estudiante. Estas regiones crticas son: t[1-/2;], donde es el nivel de significancia
usado.
8-13
Dr. Hctor Quevedo Uras
x y
2 2
R = xy / (8-26)
= n 2 grados de libertad
Aqu, nuevamente, para calcular las regiones crticas se usa la t de Estudiante, es
decir, t[/2;n-2].
Ejemplos de problemas usando regresin y correlacin lineal simple
Ejemplo #1. Este problema est relacionado con un estudio acerca de la cantidad de
precipitacin pluvial y la cantidad de contaminacin atmosfrica.
TABLA 8.0. Tabla mostrando los datos. (Elaboracin propia)
___________________________________________________________________
Lluvia (0.026) | 18 7 14 31 21 5 11 16 26 29
Remocin de contaminacin | 55 17 36 85 62 18 33 41 63 87
8-14
Dr. Hctor Quevedo Uras
2. Hacer una grfica con los residuales estandarizados versus valores ajustados de Y .
(El valor predecido o ajustado de Y i es el valor de Y que se esperara cuando se usa la
lnea de regresin. En otras palabras, los valores ajustados de Y 1, Y 2,.., Y n se obtienen
sustituyendo, sucesivamente, x1, x2, .., xn en la ecuacin de la lnea de regresin
estimada: Y i = o + 1xi, .., o + 1xn.
3. Hacer un histograma de residuales.
4. Hacer una grafica que muestre los residuales estandarizados versus renglones.
(e) Complementar la evaluacin del modelo con inferencias estadsticas, como:
1. Clculo del coeficiente de determinacin R2 y el coeficiente de correlacin R.
2. Hacer una tabla de anlisis de varianza (ANOVA).
3. Hacer una tabla con los coeficientes, los errores estndares, las pruebas de t, los
valores de p, y los intervalos de confianza para el intercepto y la pendiente.
Solucin:
(a) La variable dependiente es la remocin de contaminantes (Y) y la variable
independiente es la cantidad de lluvia (X). La figura de abajo muestra esta solucin:
Figura 8.3. Grfica mostrando Y versus X, con una lnea recta horizontal
correspondiente al valor del promedio de Y = 49.7000. (Elaboracin propia)
(b) Los valores de la estadstica descriptiva son:
X = 17.8000, Y = 49.7000. Los valores mximos y mnimos de los valores de Y son
8-15
Dr. Hctor Quevedo Uras
0
50
-5
10
1 -10
-10 -5 0 5 10 20 40 60 80
Residual Fitted Value
2
Residual
1 -5
0 -10
-8 -4 0 4 1 2 3 4 5 6 7 8 9 10
Residual Observation Order
8-17
Dr. Hctor Quevedo Uras
8-18
Dr. Hctor Quevedo Uras
p = 0.79 es grande. Esto es apoyado por el valor de 0.79 de p y por un error estndar
de 3.79, relativamente grande; lo contrario ocurre con las pruebas estadsticas de la
pendiente, cuyo valor de t es grande y cuyo valor de p es muy pequeo.
Ejemplo #2. En un estudio de microbiologa ambiental, en muestras de agua, se
dieron los siguientes datos de la tabla de abajo. Estos datos se refieren al crecimiento
de una colonia de bacterias en un medio de cultivo.
TABLA 8.3. Tabla mostrando los datos. (Elaboracin propia)
Tiempo en das de | 3 6 9 12 15 18
inoculacin (X)
__________________________________________________________________
No. bacterias (Y) | 115,000 147,000 189,000 235,600 257,900 286,400
8-19
Dr. Hctor Quevedo Uras
Figura 8.5. Figuras mostrando los resultados del nmero de bacterias versus el tiempo
de incubacin. La grfica (a) muestra la relacin entre Y y X, con la lnea recta de Y ;
la grfica (b) muestra los residuos crudos versus X; la grfica (c) muestra los residuos
crudos versus los renglones y, la grfica (d) muestra los residuos crudos versus
residuos rezagados (Elaboracin propia).
8-20
Dr. Hctor Quevedo Uras
8-21
Dr. Hctor Quevedo Uras
Solucin:
(a) Los clculos preliminares son:
8-23
Dr. Hctor Quevedo Uras
Donde:
X = promedio
t[/2;n-2] = valor de t con = n 2 g.l.
t[.025;13] = 2.16
Xo = los diferentes valores que se le den a Xo para construir los lmites o bandas de
8-25
Dr. Hctor Quevedo Uras
Donde:
R = ya definida
Para calcular las regiones crticas se usa la distribucin de t, es decir, t[/2;n-2] = t.025;13 =
2.16
Entonces, usando la frmula de abajo y sustituyendo los valores da:
x y
2 2
R = xy / = 7.701 / (132.73)(0.6074) = 0.86
y R2 = 0.7396
2
t= n2 R/ 1 R
t = 13 (0.86) / .2604
= 6.07
Si se desea sacar el valor de p se busca 6.07 en la tabla de la distribucin de t con =
13 y con = .05, lo que da .025 < p < .05.
(h) Para graficar los datos aunados a la ecuacin de la lnea de regresin con una lnea
horizontal correspondiente al valor del promedio Y se hace usando un paquete de
computadora.
8-27
Dr. Hctor Quevedo Uras
1
Standardized Residual
-1
-2
2 4 6 8 10 12 14
Observation Order
8-28
Dr. Hctor Quevedo Uras
1
Standardized Residual
-1
-2
Fitted Value
Figura 8.7b. Est grfica muestra los residuales versus valores ajustados. Para que
el modelo de regresin sea aceptable, se requiere que: los puntos en la grfica sean
aleatorios en ambos lados de 0; no debe haber series de puntos que aumenten o
disminuyan; no debe haber predominancia de residuales positivos o negativos, ni
tampoco debe haber patrones de residuales que aumenten con valores ajustados
que aumenten. Como se ve, todas estas condiciones estn bien sustentadas.
Normal Probability Plot of the Residuals
(response is Log fuer)
1
Normal Score
-1
-2
-2 -1 0 1 2
Standardized Residual
Figura 8.7c. Grfica mostrando la prueba de normalidad. Los datos deben formar
una lnea recta si los residuales estn normalmente distribuidos (situacin que
ocurre aqu). De otra manera, la suposicin de normalidad se invlida.
8-29
Dr. Hctor Quevedo Uras
Solucin:
8-30
Dr. Hctor Quevedo Uras
35
DQO (Y)
30
25
27 32 37
Solidos suspendidos (X)
8-31
Dr. Hctor Quevedo Uras
1
Standardized Residual
-1
-2
-3
-4
25 30 35
Fitted Value
(b)
Normal Probability Plot of the Residuals
(response is DQO (Y))
1
Normal Score
-1
-2
-4 -3 -2 -1 0 1 2
Standardized Residual
Figura 8.9. La figura (a) prueba por la autocorrelacin o falta de independencia de los
datos. Adems, la figura (b) prueba por la normalidad de los datos.
8-32
Dr. Hctor Quevedo Uras
8-33
Dr. Hctor Quevedo Uras
8-34
Dr. Hctor Quevedo Uras
8-35
Dr. Hctor Quevedo Uras
2. Los valores de la variable aleatoria ei deben ser independientes uno del otro. No
debe haber colinialidad o correlacin en serie. Esto se revisa graficando los
residuos (estandarizados o crudos) en funcin de los renglones. Si no hay,
aproximadamente, los mismos residuos positivos y negativos en la grfica,
entonces, el modelo lineal calculado no es el apropiado y tendrn que buscarse
otras alternativas (como funciones polinomiales, cuadrticas, cbicas, etc.). Aqu
cabe notar que la suposicin de independencia es la ms importante que se pueda
violar, porque es la base para las pruebas estadsticas como la R2, el error de lo
estimado (s dado por el programa Minitab), ANOVA, etc.
3. Los valores de la variable aleatoria ei deben de tener la misma varianza. Esto se
llama homoscedasticidad. Esto se puede revisar visualmente graficando los
residuales estandarizados o no estandarizados (crudos) contra cada valor de las
variables independientes (Xi). Aqu, nuevamente, tiene que haber la misma
cantidad de valores positivos y negativos expresados en la grfica. Aqu, sin
embargo, existen otros mtodos para revisar por el problema de
heteroscedasticidad que se retomarn en el captulo de regresin polinomial.
Otros investigadores estadsticos (Devore, 2000) sugieren cuatro grficos de
diagnstico subjetivo, para la validacin del modelo de regresin mltiple. Estos
grficos de diagnstico son:
1. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores de Xi en la abscisa.
2. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores pronosticados (en la abscisa) por el programa de computadora usado.
3. El grfico de los valores pronosticados en la ordenada versus los valores de Yi en
la abscisa.
4. Grfico de normalidad de los residuos estandarizados versus los percentiles de z
8-36
Dr. Hctor Quevedo Uras
(valores de z).
5. Histogramas.
Aplicacin de anlisis objetivos para la evaluacin del modelo de regresin
Por otro lado, en cuanto al enfoque objetivista (estadstica inferencial) para la
validacin del modelo de regresin, ste est relacionado con el uso de estadsticas
como el coeficiente de determinacin mltiple R2 (o r2), el coeficiente de
determinacin ajustado R2ajustada, el error estndar de lo estimado, s, tablas de
anlisis de varianza, pruebas de t de Estudiante, intervalos de confianza, el criterio
de Mallow de Cp, PRESS, etc.
De esta manera, cuando se habla de coeficientes en el modelo de regresin
mltiple, existen cuatro tipos de coeficientes:
(1) El coeficiente de determinacin mltiple (R2)
(2) El coeficiente de correlacin mltiple (R)
(3) El coeficiente de determinacin ajustado (R2ajustada)
(4) El coeficiente parcial de correlacin mltiple (Rij.k)
Por ejemplo, el coeficiente de determinacin mltiple R2 es, tal vez, la
medida estadstica ms popular usada para medir, qu tan bien encaja el modelo de
regresin en los datos de la muestra. En realidad el uso de R2 es una tcnica para
medir la adecuacin de un modelo de regresin lineal mltiple. Esta estadstica se
puede definir como una proporcin o como un porcentaje. Como proporcin, sus
valores varan de cero a uno. Por ejemplo, si el valor de R2 est cercano a cero, esto
indica que no hay una relacin lineal entre Y y las Xs, mientras que, un valor
cercano a uno, indica una ajuste perfecto. Sin embargo, el valor de R2 no debe de
interpretarse ligeramente, sin el apoyo del error estndar de lo estimado (s), el
residual (PRESS), el criterio de Mallow (Cp) o los factores de variacin inflados
(variance inflation factors, VIF). Adems la validacin del modelo debe estar
8-37
Dr. Hctor Quevedo Uras
8-38
Dr. Hctor Quevedo Uras
8-39
Dr. Hctor Quevedo Uras
8-40
Dr. Hctor Quevedo Uras
TABLA 8.10. Tabla mostrando los mecanismos para una prueba de hiptesis
bilateral para los coeficientes individuales i incluidos en el modelo de regresin
mltiple. (Elaboracin propia)
Hiptesis nula: Ho:i = 0, hiptesis alternativa: H1:i 0
Valor del estadstico: t = bi / sbi
Regla de decisin:
Rechazar Ho: si t > t/2;n-(k+1) o bien si t < -t/2;n-(k+1).
No rechazar Ho: si t/2;n-(k+1) t t/2;n-(k+1)
Donde: i son los coeficientes de regresin individuales.
bi = estimadores de i
sbi = errores estndar
= nivel de significancia deseado
n = nmero de observaciones
k = nmero de variables independientes
t = funcin estadstica de t de Estudiante
Ejemplos aplicando la regresin y correlacin mltiple
Ejemplo #6. En la adsorcin de tierra y sedimento, la magnitud de la acumulacin
en forma condensada de los productos qumicos en la superficie es una
caracterstica importante que influye en la eficiencia de insecticidas y varios otros
productos qumicos. El artculo Adsorption of Phosphate, Arsenate,
Methanearsonate and Cacodylate by Lake and Stream Sediments: Comparison with
Soils (J. of Environ. Qual., 1984, pp. 499-504) presenta los siguientes datos en la
tabla de abajo. Aqu se toma Y como la variable dependiente, la cual denota el
ndice de adsorcin de fosfato, X1 es una de las variables independientes
denotando la cantidad de hierro extrable y, X2 es otra de las variables
independientes denotando la cantidad de aluminio extrable. (Devore, 2000)
8-41
Dr. Hctor Quevedo Uras
8-42
Dr. Hctor Quevedo Uras
Figura 8.10 Figura mostrando las grficas de los residuos estandarizados versus
valores esperados de z (1); grfica mostrando el residuo estandarizado versus la
variable independiente X1 (2); grfica mostrando el residuo estandarizado versus la
variable independiente X2 (3); grfica mostrando el residuo estandarizado versus el
valor de Y pronosticado (4) y, finalmente, grfica de Y pronosticada versus
adsorcin (5). (Elaboracin propia)
8-43
Dr. Hctor Quevedo Uras
8-45
Dr. Hctor Quevedo Uras
TABLA 8.15. TABLA mostrando los intervalos de confianza para este problema.
(Elaboracin propia)
_________________________________________________________________
Variable Lmite inferior (95%) Lmite superior (95%)
independiente
_________________________________________________________________
Intercepto -15.1149 0.4137
Hierro (X1) 0.0467 0.1789
Aluminio (X2) 0.1901 0.5079
__________________________________________________________________
8-46
Dr. Hctor Quevedo Uras
X1 | 4 4 4 6 3 6 3 2
X2 | 3 4 3 4 2 4 2 2
Y | 3 2 7 6 5 6 7 4
Solucin:
Abajo se dan los resultados de los tres modelos. Al juzgar por los resultados, se le
pide al lector que decida cual modelo es el ms apropiado.
8-48
Dr. Hctor Quevedo Uras
Analysis of Variance
Source DF SS MS F P
Regression 2 14.000 7.000 3.50 0.112
Residual Error 5 10.000 2.000
Total 7 24.000
Analysis of Variance
Source DF SS MS F P
Regression 2 0.1824 0.0912 5.63 0.052
Residual Error 5 0.0809 0.0162
Total 7 0.2634
Analysis of Variance
Source DF SS MS F P
Regression 3 0.1533 0.0767 3.48 0.113
Residual Error 5 0.1100 0.0220
Total 7 0.2634
8-49
Dr. Hctor Quevedo Uras
TABLA 8.19. Tabla mostrando los datos originales del problema. (Elaboracin
propia)
___________________________________________________________________________
C1 C2 C3 C4 C5 C6
___________________________________________________________________________
Y X1 X2 Log Y Log X1 Log X2
___________________________________________________________________________
1 3 4 3 0.477121 0.602060 0.477121
___________________________________________________________________________
2 2 4 4 0.301030 0.602060 0.602060
___________________________________________________________________________
3 7 4 3 0.845098 0.602060 0.477121
___________________________________________________________________________
4 6 6 4 0.778151 0.778151 0.060206
___________________________________________________________________________
5 5 3 2 0.698970 0.477121 0.301030
___________________________________________________________________________
6 6 6 4 0.778151 0.778151 0.602060
___________________________________________________________________________
7 7 3 2 0.845098 0.477121 0.301030
___________________________________________________________________________
8 4 2 2 0.602060 0.301030 0.301030
___________________________________________________________________________
8-50
Dr. Hctor Quevedo Uras
Yi X1 X2 X3 X4
8-51
Dr. Hctor Quevedo Uras
8-52
Dr. Hctor Quevedo Uras
8-53
Dr. Hctor Quevedo Uras
Total 24
8-55
Dr. Hctor Quevedo Uras
Regression Analysis: (Y) Temperatura versus (X1) Altitud, (X2) Longitud (X3)
The regression equation is: (Y) Temperatura = 99.2 - 0.00138 (X1) Altitud + 0.299 (X2)
Longitud - 2.29 (X3) Latitud
8-56
Dr. Hctor Quevedo Uras
Source DF SS MS F F crtica P
Regression 3 2048.54 682.85 70.07 F.05;3,12 = 3.49 <<< 0.001
Residual Error 12 116.94 9.74
Total 15 2165.48
2 2 99
95
90
1
Standardized Residual
1
Standardized Residual
80
70
Percent
60
0 0 50
40
30
20
-1 -1
10
-2 -2 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 20 30 40 50 60 -3 -2 -1 0 1 2 3
Observation Order Fitted Value Standardized Residual
Figura 8.12. La Figura (a) muestra los residuales vs. rdenes; la figura (b) muestra
los residuales vs. los valores ajustados y la figura (c) da la prueba de normalidad.
(c) En conclusin, de acuerdo a los valores del coeficiente de determinacion R2 =
95.6% hay un buen ajuste del modelo. El valor de F de la ANOVA rechaza la
hiptesis de igualdad de promedios (de altitud, longitud y latitud), con un valor de
p muy significativo. Las pruebas de T son significantes, lo que sugiere que no hay
problemas de multicolinealidad. Anlogamente, los valores bajos de VIF sugieren
indican que no hay problemas de multicolinealidad. Esto, aunado, a los signos de
las variables regresoras de la ecuacin de regresin, los cuales si estn de acuerdo a
una lgica a posteriori. El valor de la funcin de Durbin-Watson Statistic o de
correlacin en serie igual a 1.53384 indica que no hay problemas de
autocorrelacin (aunque aqu, esto se puede ignorar porque el problema no
involucra series de tiempo). En cuanto a la Figura 8.12 la grfica (a) muestra los
residuales versus los rdenes, en la cual hay aleatoriedad de los datos.
Anlogamente, la grfica de residuales vs. valores ajustados (b) indica alateoridad
8-57
Dr. Hctor Quevedo Uras
8-58
Dr. Hctor Quevedo Uras
__________________________________________________________________________________________
(c) La Figura 8.13 de abajo muestra las concentraciones de ozono en funcin de las
temperaturas con los valores de los residuales ei.
8.13. Figura mostrando la medicion de cada uno de los valores residuales con la
lnea de regresin. (Elaboracin propia).
8-59
Dr. Hctor Quevedo Uras
Ejercicios Captulo 8
8.1. Los datos de abajo muestran las emisiones de xidos de nitrgeno (NOx)
provenientes de calderas de plantas elctricas.
Tabla mostrando los datos para el problema. (Elaboracin propia)
__________________________________________________________________
MBtu/hr-ft2 (X) |100 125 125 150 150 200 200 250 250 300 300 350 400 400
NOx (Y) |150 140 180 210 190 320 280 400 430 440 390 600 610 570
8-61
Dr. Hctor Quevedo Uras
Ver cul modelo de regresin encaja mejor en los datos, al juzgar por las estadsticas
y por los anlisis grficos, es decir, usando una aproximacin lineal, una logartmica
y una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln(a) + b(LnX).
(a) Usar una aproximacin lineal como Y = a + bX y, adems, calcular el coeficiente
de determinacin R2. (Y = 880.4 9.6 (X), R2 = 0.699)
(b) Usar una aproximacin logartmica como Y = a + b Ln (X) y adems, calcular el
valor de R2. (Y = 1331.08 557.03 Lg X)
(c) Usando una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln (a)
+ b (Ln X) y, adems, calcular R2 (R2 = 0.829)
8.4. En un estudio de qumica analtica, en la tabla de abajo se da la relacin entre la
temperatura y la molaridad (en moles por litro) de una sustancia. Para esto hacer los
siguientes:
(a) Estimar el modelo de regresin ms apropiado basado en anlisis estadsticos de
R2, R2ajustada, PRESS, s, y Cp y en anlisis grficos subjetivos de los valores
8-62
Dr. Hctor Quevedo Uras
residuales.
Tabla mostrando la informacin requerida.
_________________________________________________________________
Temperatura oC | 4.3 4.5 4.8 5.5 5.7 5.9 6.4 6.7 7.5 7.9
_________________________________________________________________
Molaridad | 12.1 12.5 12.9 13.0 13.1 14.0 14.2 14.8 15.0 15.5
_________________________________________________________________
Mtodo A | 5 6 6 8 10 10 11 11
Mtodo B | 8 9 9 11 13 13 14 14
8-63
Dr. Hctor Quevedo Uras
mtodos para el anlisis (en g/L) del berilio, es decir, el mtodo espectromtrico de
absorcin atmica (mtodo 1) y el mtodo aluminon (mtodo 2). Los resultados de
los anlisis de los dos mtodos se dan en la tabla de abajo. Hacer los siguientes
clculos:
(a) Hacer un estudio estadstico objetivista, es decir, estimando los valores de R2,
R2ajustada, PRESS, s y tablas de ANOVA. Complementar el estudio haciendo anlisis
subjetivistas.
Tabla mostrando los resultados de los mtodos 1 y 2 para la medicin del berilio.
(Elaboracin propia)
Mtodo 1 | 0 3 4 5 9 12 15 17 20 20
Mtodo 2 | 1 7 11 19 24 31 31 35 41 41
8-64
Dr. Hctor Quevedo Uras
8-65
Dr. Hctor Quevedo Uras
8-66
Dr. Hctor Quevedo Uras
8-67
Dr. Hctor Quevedo Uras
(Y) | 4 7 8 8 10 11 16 26 21 9 31 30 75 90
8-68
Dr. Hctor Quevedo Uras
Nota: Los sistemas de flujo fretico (reas pantanosas) se usan como sistemas de
tratamiento natural, porque tienen la capacidad de degradar las concentraciones
carbonosas de DBO actuando como especie de lagunas de oxidacin. En Minatitln
y Coatzacoalcos, Veracruz, se usan estos tipos de tratamientos naturales.
Solucin:
De acuerdo a la tabla de arriba se le pide al lector decidir, cul modelo es superior.
8.11. El texto de Daniel, W.W., James C. Terrell Business Statistics (1989), p. 257
mencionan el problema del envenenamiento del ganado vacuno, por los insecticidas
el cual es un problema muy serio, porque los pesticidas tienen la facultad de
acumularse en los tejidos de los animales y, de ah se pasan a aquellas personas que
los consumen. As, en aos recientes, los ambientalistas se han preocupado mucho
por los efectos, en el medio ambiente, debido al uso indiscriminado de insecticidas.
Es verdad que los insecticidas matan los insectos, pero tambin matan todo lo dems.
De esta manera, los insecticidas contaminan los frutos de las plantas, a los animales y
tambin a la gente. Los investigadores Mount y Oehmet estudiaron los efectos de los
insecticidas en las ovejas relacionada con la actividad enzimtica en el cerebro.
Adems, de otros anlisis estadsticos, estos cientficos derivaron una lnea de
regresin que describe las relacin entre la actividad enzimtica en el cerebro de las
ovejas (Y) y el tiempo, en horas, despus de que las ovejas has sido expuestas a los
insecticidas (X). La funcin de la lnea de regresin estimada por estos cientficos se
da abajo.
Y = 27.32 + 1.36 X
Basando el criterio en esta ecuacin, estimar lo siguiente:
(a) Si despus de que han pasado 30 horas, cuando las ovejas han sido expuestas a
los insecticidas, Cul sera el valor de la actividad enzimtica? (68.12)
(b) Si el coeficiente de correlacin muestral se da como R = 0.86 y, el coeficiente de
8-69
Dr. Hctor Quevedo Uras
8-70
Dr. Hctor Quevedo Uras
Tabla mostrando los volmenes y las presiones del gas. (Elaboracin propia)
Sugerencias: Se dan los siguientes factores de conversin: 1 atm = 14.7 lbs/in2 = 760
torr = 1.0668 kg/cm2; 1 cm2 = 0.16 in2; 1.0567 cuartos = 1 L; 1 pulgada cuadrada =
6.25 cm2; 1 m3 = 1000 L. = 106 cm3.
8.13. Se coleccion una muestra de 33 casos de una descarga de aguas residuales
municipales. Esta muestra se analiz para la demanda bioqumica de oxgeno de 5
das (DBO5), en libras por da, y la demanda qumica de oxgeno, DQO (en libras por
da). La tabla de abajo muestra la informacin requerida.
Tabla mostrando las mediciones de DBO5 y DQO. (Elaboracin propia)
Demanda qumica de oxgeno Demanda bioqumica de oxgeno
(lbs/da) (lbs/da)
8-71
Dr. Hctor Quevedo Uras
Hacer lo siguiente:
(a) Ver su existe una correlacin significante usando los valores R del DBO5 y el
DQO. (R = 0.9677, R2 = 0.9360)
(b) Interpretar el valor del coeficiente de correlacin R y el coeficiente de
determinacin R2. Usar el programa Minitab o EXCEL para hacer el clculo pedido.
8.14. Considerar los datos de abajo relacionados con el peso del vehculo y el
rendimiento de gasolina. El peso del auto se da en toneladas y, el rendimiento del
combustible se da en millas galn. Los datos se dan abajo.
8-72
Dr. Hctor Quevedo Uras
Tabla mostrando los datos del los modelos vehiculares en funcin del peso en
toneladas (X), y de millas por galn (Y).
________________________________________________________________
Modelo vehicular Peso (toneladas) Millas/galn
8-73
Dr. Hctor Quevedo Uras
rendimiento de gasolina.
(b) Estimar el coeficiente de correlacin de la muestra R (llamado tambin
coeficiente de correlacin de producto-momento de Pearson) y el coeficiente de
determinacin muestral R2.
(c) Hacer una grfica que vaya en funcin de Y y X, trazarla en la grfica y tambin
trazar la lnea horizontal usando el valor del promedio de Y.
(d) Hacer una tabla de ANOVA.
(e) Estimar los intervalos de confianza para y las probabilidades
correspondientes para cada uno de stos.
(f) Qu otros factores tendran que considerarse, para que el modelo de regresin
fuera ms confiable?
8.15. Los metales pesados como el Hg, Cr, Pb, etc., pueden interferir con el
tratamiento biolgico en las plantas municipales de aguas residuales domsticas. En
este estudio se hicieron mediciones mensuales en una planta modelo de tratamiento
de las concentraciones de cromo, Cr, en mg/L, tanto en el efluente como en la
entrada. Los resultados de las concentraciones de Cr se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboracin propia)
Entrada (X) | 250 290 270 100 300 410 110 130 1100
(g/L)
Efluente (Y) | 19 10 17 11 70 60 18 30 180
(g/L)
8-77
Dr. Hctor Quevedo Uras
8-78
Dr. Hctor Quevedo Uras
8.23. El texto Applied Statistics: Analysis de Variance and Regression de Dunn et al.
1974) hace un estudio mdico relacionado con el cambio de la hemoglobina de la
sangre de operaciones de la glndula tiroides, el cual est relacionado con la duracin
de la operacin quirrgica y el cambio en el porcentaje de la hemoglobina de la
sangre. Los datos se dan en la tabla de abajo.
8-79
Dr. Hctor Quevedo Uras
8-80
Dr. Hctor Quevedo Uras
8-81
Dr. Hctor Quevedo Uras
8-82
Dr. Hctor Quevedo Uras
15 0 21
15 0 18
21 0 22
28 1 24
30 1 25
35 1 25
40 1 26
35 2 34
30 2 25
45 2 38
50 3 44
60 3 51
45 4 39
60 4 54
50 5 55
________________________________________________________________
Fuente: Daniel et al. 1989. Business Statistics
Hacer los siguientes clculos:
(a) Encontrar la ecuacin de regresin de los cuadrados mnimos.
(b) Computar R2y.12.
(c) Probar Ho:1 = 0 y Ho:2 = 0. Dejar que = 0.05 y calcular el valor de p para
cada prueba.
(d) Computar el 95% de intervalo de confianza para 2.
(e) Dejar que x1 = 2 y x2 = 25 y calcular y.
(f) Encontrar el intervalo de 95% para y.
8.27. La capacidad de los ecologistas para identificar regiones de mxima riqueza
de las plantas podra tener un impacto sobre la preservacin de la diversidad
gentica. Esto es uno de los objetivos de los ecologistas quienes estn preocupados
8-83
Dr. Hctor Quevedo Uras
8-84
Dr. Hctor Quevedo Uras
1 2 3 4 5 6 7 8 9
Criterios _________________________________________________________
R2k | .354 .453 .511 .550 .562 .570 .572 .575 .575
MSEk | 2295 1948 1742 1607 1566 1541 1535 1530 1532
Cpk | 314 173 89.6 35.7 19.9 11.0 9.4 8.2 10.0
__________________________________________________________________
Slidos suspendidos| 18 7 14 31 21 5 11 16 26 29
DBO5 | 55 17 36 85 62 18 33 41 63 87
8-85
Dr. Hctor Quevedo Uras
DQO (lbs/Da)| 494 444 528 396 532 308 350 456 440 544 310 538
| 480 500 396 486 556 600 428 440 291 490 546 582
| 368 386 400 347 278 304
DBO (lbs/Da | 216 200 238 164 230 116 150 190 190 248 120 226
| 200 222 176 202 240 280 184 194 134 215 246 292
| 177 193 165 160 125 137
__________________________________________________________________
(a) Determinar R2 y R. (R2 = 0.9350, R = 0.967)
(b) Graficar los datos en papel de probabilidad y determinar lo siguiente:
(1) Determinar los valores de DBO y el DQO que excedern el 50% y el 90% de
las veces. (195 lbs/Da y 440 lbs/Da)
(2) Determinar los valores de DBO y del DQO que se lograrn el 90% de las veces.
8-86
Dr. Hctor Quevedo Uras
(3) Determinar los valores de DBO y del DQO que puedan ser excedidos el 10% de
las veces. (260 lbs/Da y 580 lbs/Da)
(4) Calcular el promedio y la desviacin estndar del DBO y del DQO.
(c) Evaluar el modelo de regresin aplicando enfoques subjetivistas, es decir, con
grficas de los valores residuales en funcin de valores ajustados (para la prueba de
independencia), pruebas de normalidad, etc.
8.31. Este es un problema adaptado del libro Introduccin al Anlisis de Regresin
Lineal de los autores Montgomery, Peck y Vining (2001). Este proyecto est
relacionado con un estudio de energa solar en el Tecnolgico de Georgia, Estados
Unidos. El proyecto involucra datos de pruebas de energa trmica con una
variable dependiente (y), que relaciona al flujo total de calor (Kwatts) y cinco
variables independientes que estn relacionadas con la insolacin (watts/m2), la
posicin del foco en direccin del este (en pulgadas), la posicin del foco en
direccin del sur (en pulgadas), la posicin del foco en direccin norte (en
pulgadas) y la hora del da. Para esto, estimar los siguientes enunciados:
(a) Probar el modelo de regresin que mejor ajuste a los datos.
(b) Evaluar el modelo de regresin seleccionado, es decir, a travs de criterios
estadsticos y complementar la decisin usando grficos subjetivistas.
La tabla de abajo muestra la informacin requerida para solucin todos los
enunciados requeridos por este problema.
8-87
Dr. Hctor Quevedo Uras
8-88
Dr. Hctor Quevedo Uras
235 20 19 86 95
231 27 17 85 90
285 40 20 83 105
270 55 20 82 83
296 60 20 87 90
312 68 21 89 94
295 75 20 83 92
292 80 20 81 92
263 70 20 58 105
271 50 15 79 100
283 40 15 80 90
256 30 15 79 88
8.33. Este es un problema adaptado del texto de Jay L. Devore (2001), en el cual se
da la informacin requerida para la seleccin del modelo de regresin superior,
basado en la inclusin del nmero de variables regresoras, seleccionado entre
8-89
Dr. Hctor Quevedo Uras
cuatro modelos candidatos. El ejemplo est relacionado con el calor acumulado del
endurecimiento del cemento tomado como la variable dependiente, en funcin de
los predictores x1 = % de aluminato de tricalcio, x2 = % de silicato de tricalcio, x3 =
% ferrato de aluminio y x4 = silicato de dicalcio. Se da un tamao de muestra igual
a 13 observaciones y, donde la suma de los cuadrados del total es igual a 2,715.76.
Para esto, se pide al lector llenar los faltantes de la tabla de abajo y decidir cual es
el modelo superior que tiene el nmero adecuado de variables regresoras.
Tabla mostrando la informacin. Llenar los faltantes.
No. de regresores k Regresor (es)k SSEk R2k R2(ajustada)k Cpk F(calc.)k
1 x4 880.85 0.676 0.647 138.2
2 x1, x2 58.01 2.7
3 x1, x2, x3 0.982 0.876 3.2
4 x1, x2, x3, x4 0.982 4.0
8-90
Dr. Hctor Quevedo Uras
CAPITULO 9
Regresin polinomial
Modelos polinomiales de segundo orden (k = 2) con una variable independiente.-
Modelo de polinomios de tercer orden (k = 3), con una variable independiente.-
Modelo de segundo orden (cuadrtico) con interaccin.- Modelo polinomial (de
segundo orden o cuadrtico), con tres variables independientes con interaccin.-
Evaluacin de los modelos de regresin.- Prueba estadstica para comparar la
suma de los cuadrados del error (SSE) de cada modelo probado, para saber cual
modelo es superior.- Modelos de regresin no lineales y de regresin logstica.-
Modelos de regresin exponenciales paramtricos, con una sola variable
independiente.- Procedimientos para la identificacin de valores atpicos
extremos. Diagnstico y mitigacin de multicolinealidad.- Medidas para corregir
multicolinealidad severa.- Ejemplos de problemas de regresin polinomial
usando el programa de computadora Minitab.- Autocorrelacin en datos de
series de tiempo.- Heteroscedasticidad y homoscedasticidad.- Prueba de White
para el problema de heteroscedasticidad.-
La regresin polinomial es un caso especial de la regresin lineal simple o mltiple.
Hay modelos polinomiales de segundo o tercer orden. Con la regresin polinomial
existen modelos con una variable independiente, con ecuaciones cuadrticas, cbicas
o con rdenes ms altos que k = 3. Tambin hay modelos polinomiales con dos o ms
variables independientes, con ecuaciones de segundo, tercer orden, etc. Igualmente,
puede haber modelos de segundo orden o tercer orden con interaccin. Sin embargo,
los modelos polinmicos que tienen tres o ms variables independientes, con valores
de k > 3 son aplicaciones muy dificultosas y raras.
9-1
Dr. Hctor Quevedo Uras
9-2
Dr. Hctor Quevedo Uras
9-3
Dr. Hctor Quevedo Uras
Figura 9.0. Figuras mostrando las grficas del modelo cuadrtico y cbico. Por
ejemplo, grfica (a) muestra el modelo de segundo orden, con 2 < 0; la grfica (b)
muestra el modelo con 2 > 0 y con varios valores de 2. La grfica (c) muestra los
modelos de tercer orden con 3 < 0 y, (d), con 3 > 0. (Fuente: Keller et al. 1990)
9-4
Dr. Hctor Quevedo Uras
9-5
Dr. Hctor Quevedo Uras
9-6
Dr. Hctor Quevedo Uras
12, 13, 23 = los coeficientes del efecto de interaccin entre los pares de variables
de prediccin x1x2, x1x3 y x2x3 x1x2, x1x3, x2x3 representan la interaccin entre las
variables independientes x1, x2, x3,x1, x2, x3 = variables independientes
En la solucin de problemas relacionados con modelos de regresin lineal,
mltiple o de regresin polinomial, con una o ms variables independientes es siempre
conveniente graficar los datos y examinar el diagrama esparcido. Esto se hace con el
objeto de analizar, visualmente, el diagrama esparcido y ver el tipo de curva mostrado
y, por consiguiente, el modelo de regresin o funcin que pueda encajar mejor en los
datos.
Figura 9.1. Grficas mostrando modelos polinomiales de primero y segundo orden, con
dos variables independientes. La grfica (a) muestra la ecuacin y = 6 + 4x1 + 5x2.
Cuando x2 = 1, 2 y 3, las ecuaciones modificadas se ven en la grfica en cada uno de sus
casos.
9-7
Dr. Hctor Quevedo Uras
9-8
Dr. Hctor Quevedo Uras
Donde, SSE = e2i se refiere a la suma de los cuadrados del error o residuo, y p es lnea
9-9
Dr. Hctor Quevedo Uras
9-10
Dr. Hctor Quevedo Uras
Y= Log Y, Y = Y 2, Y = Y e Y = 1/Y.
6. Prueba de heteroscedasticidad (hetero- = desigual; -scedasticidad = esparcido) o de
residuales no uniformes (implica error de varianza de 2 no constante en todos los
casos, en contraste con homoscedasticidad, la cual implica error de varianza 2
constante). Para diagnosticar el problema de heteroscedasticidad graficar los residuales
versus valores predecidos, Y. Anlogamente, para diagnosticar este problema de
heteroscedasticidad se puede hacer aplicando las pruebas de White y de
Breusch-Pagan. Para mitigar el problema de la falta de homoscedasticidad, esto se
puede hacer por medio de transformaciones, como en el incio (5). Tambin se puede
hacer probando otros modelos que ajusten mejor los datos.
Resumen de los modelos de regresin usados
A. Modelo de regresin lineal simple (de primer orden), con una variable
independiente
y = o + 1x1 +
B. Modelo de regresin lineal mltiple, con dos variables independientes, sin
interaccin
y = o + 1x1 + 2 x2 +
C. Modelo de regresin lineal mltiple, con dos variables independientes, con
interaccin
y = o + 1x1 + 2 x2 + 12 x1x2 +
D. Modelo cuadrtico, con una variable independiente
y = o + 1x1 + 2 x22 +
9-11
Dr. Hctor Quevedo Uras
y | 2508 2518 3304 3423 3507 3190 3500 3883 3823 3646 3708 3333 3517 3241 3103 2776
9-12
Dr. Hctor Quevedo Uras
Figura 9.2. Diagrama esparcido de los datos del rendimiento de la cosecha (y) y el
nmero de das de floracin (x). (Fuente: Devore, 2001).
Los niveles crticos para una prueba bilateral, con un nivel significante de = 0.05 son:
9-13
Dr. Hctor Quevedo Uras
Conclusin: Debido a que Fcalc. = 25.08 >>> Fcrtica = 3.81, se rechaza la hiptesis nula
Ho:2 = 0 y, por lo tanto, se inclina por la hiptesis alternativa de H1:2 0.
(d) La estimacin del coeficiente de determinacin es:
R2 = 1 SSerror/SStotal
= 1 540,388/2,625,167
= 0.794
(e) Para la prueba de hiptesis nula Ho:2 = 0 y la hiptesis alternativa H1:2 0,
usamos los datos de arriba. Por ejemplo, 2 = -4.5358 y la desviacin estndar es de s2
= 0.6744. La prueba de Ho:2 = 0 es lo mismo que decir que el modelo polinomial
cuadrtico no aplica a los datos y, H1:2 0 dice que si aplica. La funcin de t usada
es:
t = 2 / s2 (9-8)
9-14
Dr. Hctor Quevedo Uras
9-15
Dr. Hctor Quevedo Uras
9-16
Dr. Hctor Quevedo Uras
(c) Finalmente, probar un modelo de regresin lineal mltiple, sin interaccin. Este
modelo, lo llamaremos modelo lineal simple.
(d) Describir las ecuaciones de los modelos de regresin poblacionales de los incisos
(a), (b) y (c).
(e) Para decidir cual modelo es mejor, hacer una tabla con los resultados de los tres
modelos, basndose en los diagnsticos objetivistas como las estadsticas R2, R2ajustada,
s, PRESS, ANOVA, etc.
(f) Hacer una prueba de hiptesis para ver si el efecto de interaccin es viable. Adems,
usar la ecuacin 9-9, para seleccionar el modelo de regresin ms apropiado.
9-17
Dr. Hctor Quevedo Uras
9-18
Dr. Hctor Quevedo Uras
Figura 9.3. Figura mostrando los resultados usando el programa Minitab de los tres
modelos probados. (Elaboracin propia)
(a) Primero, se prueba el modelo de regresin polinomial cuadrtico, con interaccin,
es decir, el modelo completo.
The Regression Equation is:
(y) = -1135 + 173(X1) + 23.6(X2) 3.73(X21) 3.8(X22) + 1.97(X1X2)
Source DF SS MS F p
Due to regression 5 368162 73632 36.88 0.000
Residual Error 19 37934 1097
Total 24 406096
Nota: Aqu, la regin crtica de F, con = 0.05 y con 5 y 19 grados de libertad, es 2.74.
(b) Enseguida se prueba el modelo de regresin cuadrtico, sin interaccin, es decir, el
modelo abreviado. El programa Minitab arroja los siguientes resultados:
The Regression Equation is:
(y) = -1558 + 198(X1) + 70.8(X2) 3.98(X21) 4.12(X22)
9-19
Dr. Hctor Quevedo Uras
Source DF SS MS F p
Due to Regression 4 359463 89866 38.54 0.000
Residual Error 20 46633 2832
Total 24 406096
Analysis of Variance
Source DF SS MS F p
Due to regression 2 132253 66126 5.31 0.013
Residual Error 22 273844 12447
Total 24 406096
Nota: Para probar que los coeficientes son iguales, en cuanto al anlisis de varianza, la
funcin de ANOVA prueba la longitud total de la utilidad del modelo.
(d) La descripcin de los tres modelos poblacionales, a estimarse, por los modelos de
regresin estadstica son:
1. El modelo cuadrtico con interaccin o completo es:
y = o + 1x1 + 2 x2 + 3 x21 + 4 x22 + 5 x1x2 +
2. El modelo cuadrtico sin interaccin o abreviado es:
y = o + 1x1 + 2 x2 + 3 x21 + 4 x22 +
3. El modelo de regresin lineal mltiple es:
y = o + 1x1 + 2 x2 +
9-20
Dr. Hctor Quevedo Uras
Al juzgar por los resultados, tal parece que los mejores modelos candidatos son el
modelo completo y el abreviado. (Para hacer una decision final usar la funcin (9-9).
(f) Ahora se va a inquirir si existe suficiente evidencia, para concluir que, el modelo
cuadrtico, con interaccin, es el modelo ptimo. Esto se debe a qu, si a los modelos
de regresin se les agregan variables innecesarias, que pudieran dar un mejoramiento
pequeo, no es recomendable. Bajo estas condiciones, la adicin de variables
innecesarias conlleva a problemas de colinealidad (correlacin entre las variables
regresoras). Por esta razn, es conveniente dejar el modelo de regresin, lo ms simple
posible, a menos de que existan buenas razones estadsticas para agregarle variables
adicionales.
Una manera de revisar, si el efecto de interaccin es necesario, se prueba 5 (el
coeficiente de interaccin) haciendo una prueba de hiptesis, como sigue:
La prueba de hiptesis nula es: Ho:5 = 0
La prueba de hiptesis alternativa es: H1:5 0
Con un nivel significante de = 0.05, la regin de rechazo es:
|t| > t/2;n-k-1; > t0.05/2;25-6-1; > t.025;19; > 2.093
De la Figura 9.3, en la columna de las pruebas de t, se ve que, para el efecto de
9-21
Dr. Hctor Quevedo Uras
interaccin de (x1x2) el valor de T es igual a 2.09 con p = .051. Por consiguiente, debido
a que T = 2.09 es menor que la T crtica de 2.093, esto indica que, la inclusin del
trmino de interaccin 5x1x2 no mejora al modelo completo, es decir, al incluir el
factor de interaccin. Esta decisin nos lleva al modelo cuadrtico, sin interaccin,
como el mejor modelo para este problema.
Otra forma de comprobar lo mismo que arriba, se puede hacer usando la
ecuacin (9-9). Esta estadstica dada por Keller et al. (1990) est relacionada con la
suma de los cuadrados SS, la cual mide, qu tan bien encajan los datos en el modelo.
Como se dijo antes, este procedimiento consiste en comparar la suma de los cuadrados
SS1 del modelo abreviado y SS2 del modelo completo. Por ejemplo, si SS2 es
significativamente ms pequea que SS1, se concluye que el modelo completo es
superior al modelo abreviado; de otra manera, se concluira que, el modelo completo no
sera, realmente, superior. Para tales fines se usa la estadstica (9-9) y se procede a
sustituir los siguientes valores sacados de la Figura 9.3 es decir, SS1 = 46633, SS2 =
37934, k2 = 5, k1 = 4, n = 25.
La prueba de hiptesis nula es: Ho:3 = 4 = 5 = 0. La prueba de hiptesis
alternativa es que los coeficientes de regresin no son igual a 0 o, cuando menos, uno
de los coeficientes 3, 4 y 5 no es igual a 0. Si el modelo completo (con interaccin en
este caso) es mejor que el abreviado (sin interaccin en esta instancia), el valor de SSE2
ser ms pequeo que SSE1, el valor de F ser grande, y se rechazar Ho:, y se concluir
que si hay evidencia para afirmar que el modelo completo, con interaccin, es mejor
que el modelo sin interaccin. Sin embargo, si el modelo completo no es
significantemente mejor que el modelo abreviado, entonces, la relacin SSE1 SSE2,
ser, aproximadamente, igual a cero. Por consiguiente, el valor de F ser pequeo y no
se rechazar la hiptesis nula Ho: Bajo estas condiciones se concluir que, el modelo
abreviado (sin interaccin), es mejor.
9-22
Dr. Hctor Quevedo Uras
En conclusin, debido a que la Fcalc. = 4.35 < Fcrtica = 4.38, se dice que no hay evidencia
para afirmar que el modelo de regresin con interaccin es superior al modelo
abreviado.
Ejemplo #3. El desarrollo de microorganismos sigue a un crecimiento exponencial
matemtico. Para esto decidi usar un modelo cbico, donde Y es el conteo de
microorganismos y X es el nmero de horas que han pasado. Usar el programa Minitab
para tales propsitos.
Solucin:
La ecuacin es: Y = -8.10 + 12.7X 0.905(X 2) + 2.14(X 3)
s = 41.845 R2 = 0.998 R2(ajustada) = 99.8%
TABLA 9.4. Tabla de anlisis de varianza. (Elaboracin propia)
Fuente de variacin g.l. SS MS Fcalc.
Debido a la regresin 3 12,331,818 4,110,606 1370202
Residuo (error) 13 22,760 1,751
Total 16 12,354,578
9-23
Dr. Hctor Quevedo Uras
9-24
Dr. Hctor Quevedo Uras
9-25
Dr. Hctor Quevedo Uras
9-26
Dr. Hctor Quevedo Uras
9-27
Dr. Hctor Quevedo Uras
Figura 9.4. Grfica mostrando los casos de SIDA, en funcin del tiempo de este
problema. (Elaboracin propia)
(b) Cuando t = 20 (ao 2000), el nmero de casos de SIDA sera:
y = (1290.84)(1.75974) 20
= 104,674,894.9
9-28
Dr. Hctor Quevedo Uras
Ajustamiento de curvas
En el ajustamiento de curvas, para seleccionar el modelo que mejor encaja en los datos
se dan abajo varios tipos de curvas. Estas funciones ayudan a seleccionar la forma ms
apropiada para los datos. Estos tipos de curvas son sugeridos por el programa de
computadora NCSS.
Figura 9.5. Grficas mostrando los diferentes tipos de funciones usados en los
ajustes de curvas, para seleccionar el mejor modelo de regresin que pueda encajar
en los datos.
9-29
Dr. Hctor Quevedo Uras
Figura 9.6. Grficas mostrando los diferentes tipos de curvas usados en el ajustamiento
de modelos de regresin ms apropiados.
9-30
Dr. Hctor Quevedo Uras
9-31
Dr. Hctor Quevedo Uras
programa NCSS.
9. Tambin se puede hacer usando el valor crtico de Bonferroni, que identifica los
valores absolutos de los residuales estudentizados. Esta prueba citada por Neter et al.
(1996) se da como t(1 /2n;n p 1).
10. Tambin se hace con la estadstica Cooks Distance (lgica del programa NCSS), la
cual dice que, si sta es mayor que F(.50,p,n-p), donde F es un valor de la distribucin F,
entonces, esto sugiere un valor extremo.
11. Los valores extremos tambin se pueden identificar con los grficos de los residuos
que van en funcin de X o de Y.
Diagnstico de multicolinealidad
En regresin mltiple hay lo que se llama colinealidad, multicolinealidad o
intercorrelacin. Esta situacin existe cuando las variables independientes estn
correlacionadas entre si. Lo ideal en regresin mltiple es de que las variables
independientes x1, x2,, xkn no estn correlacionadas, de tal manera que, cada una
explique un porcentaje separado de la variacin en la variable dependiente.
El mal efecto de multicolinealidad es que las desviaciones estndar de los
coeficientes del modelo de regresin estn sobreestimadas. Como resultado de esto,
cuando se hacen las pruebas de hiptesis, la estadstica t es ms pequea de lo que
debera ser. Adems, algunas variables independientes o exgenas aparecen como si no
estuvieran relacionadas linealmente con la variable Y, cuando en realidad si lo estn.
Existen dos mtodos para descubrir la multicolinealidad, es decir, mtodos
informales y mtodos formales. Los mtodos informales para detectar colinealidad
severa son:
1. Estudios de los signos algebraicos de los coeficientes del modelo de regresin. Si
hay colinealidad, los signos algebraicos de los coeficientes son opuestos, a lo que se
debera esperar de consideraciones tericas o de experiencia a posteriori.
9-32
Dr. Hctor Quevedo Uras
9-33
Dr. Hctor Quevedo Uras
hechas, solamente, sobre las regin de los valores de las variables independientes y, los
coeficientes de regresin estimados no se usarn para propsitos de interpretacin,
concerniendo las relaciones de las variables explicativas (Xs) y de la variable de
respuesta (Y), entonces, la multicolinealidad, aun cuando sea severa, no ser un
problema (Pfaffenberger, 1987). Aqu, sin embargo, la determinacin de la regin
muestreada es difcil. Por ejemplo, si hay una variable independiente, entonces, la
regin es un intervalo sobre la lnea real entre el valor mnimo de x y el valor mximo
de x en la muestra. Adems, con cuatro variables independientes, la regin muestreada
es en el espacio de cuatro dimensiones de las xs y sus linderos no son obvios. Por lo
tanto, bajo estas condiciones, hay que ejercer precaucin, de tal manera que, la
prediccin no represente una extrapolacin ms all de la regin muestreada de las xs,
cuando existe multicolinealidad severa. Por otra parte, si se desea hacer
interpretaciones de los coeficientes de correlacin (bi), entonces la multicolinealidad no
se puede tolerar.
2. El hecho de que algunos o todas las variables independientes estn correlacionadas
entre si, en general, no obstruye la habilidad para obtener un buen ajuste de los datos.
Esta situacin tampoco interfiere en las inferencias acerca de las respuestas promedio
de predicciones de nuevas observaciones, siempre y cuando, estas inferencias sean
hechas dentro de la regin de las observaciones.
3. Cuando las variables independientes estn altamente correlacionadas, los
coeficientes de regresin estimados tienden a tener una gran variacin de muestreo. Por
lo tanto, bajo estas condiciones, los coeficientes de regresin tienden a variar
ampliamente de una muestra a otra. Como resultado de esto, solamente, se obtiene
informacin imprecisa acerca de los coeficientes individuales.
4. Cuando hay multicolinealidad, la interpretacin de un coeficiente de regresin,
9-34
Dr. Hctor Quevedo Uras
9-35
Dr. Hctor Quevedo Uras
9-36
Dr. Hctor Quevedo Uras
9-37
Dr. Hctor Quevedo Uras
TABLA 9.6. Tabla mostrando los valores originales y los valores del cuadrado y del
cubo de los valores de X. (Elaboracin propia)
Nota: para hacer esta tabla cuadrar y cubicar los valores de X antes de ponerlos en las
columnas. Despus de esto, se corre el programa como si fuera una regresin lineal.
9-38
Dr. Hctor Quevedo Uras
Solucin:
(a) La figura de abajo muestra la grfica de los datos.
40
Millas por galon (y)
30
20
40 50 60
Velocidad constante (x)
Figura 9.7. Figura mostrando el rendimiento de gasolina en funcin del tipo de manejo.
(Elaboracin propia)
(b) Los resultados asumiendo un modelo cuadrtico son:
y = -183 + 8.98(X) 0.0911(X2)
Con s = 1.727, R2 = 0.947, PRESS = 49.26
TABLA 9.7. Tabla de ANOVA para el ajuste de un modelo cuadrtico. (Elaboracin
propia)
Fuente de variacin g.l. SS MS Fcalc. Valor p
Debido a la regresin 2 483.17 241.58 81.0 0.000
Error o residual 9 26.83 2.98
Total 11 510.00
9-39
Dr. Hctor Quevedo Uras
TABLA 9.8. Tabla mostrando los coeficientes, los errores estndares de los
coeficientes, los valores de t y de p para el modelo cuadrtico. (Elaboracin propia)
TABLA 9.10. Tabla mostrando los coeficientes, los errores estndares de los
coeficientes, los valores de t y de p para el modelo cbico. (Elaboracin propia)
Predictores Coeficientes Error estndar Valor t Valor p
de coeficientes
Constante -73.9 125.7 -0.59 0.57
X1 1.85 8.2 0.23 0.83
XSQR 0.06 17.5 0.35 0.73
XCUBE -0.001 0.001 -0.87 0.41
9-40
Dr. Hctor Quevedo Uras
1
Standardized Residual
-1
-2
2 4 6 8 10 12
Observation Order
1
Standardized Residual
-1
-2
20 30 40
Fitted Value
Figura 9.9. Grfica de los residuos estandarizados versus los valores ajustados de Y
para el modelo cbico. Ntese que, en esta grfica hay el mismo nmero de valores
positivos y negativos. En contraste, el modelo cbico ajustado (no mostrado aqu) no
muestra el mismo nmero de residuos positivos y negativos. (Elaboracin propia).
9-41
Dr. Hctor Quevedo Uras
1
Normal Score
-1
-2
-2 -1 0 1
Standardized Residual
(d) De acuerdo a los datos tabulados de abajo, y de los diagnsticos grficos, tal parece
que el mejor modelo es el modelo cuadrtico. Esto se debe a que, a pesar de que los
valores de R2 y s de los dos modelos son parecidos, los valores de PRESS difieren uno
del otro. Adems, los valores de t del modelo cuadrtico son muy significantes en
comparacin con los del modelo cbico (TABLAS 9.8 y 9.10). Tambin la Figura 9.7
de Y versus X sugiere a una funcin cuadrtica; no cbica. Finalmente, los anlisis de
los grficos de los residuales para la funcin cuadrtica son ms convincentes que los
del modelo cbico.
TABLA 9.11. Tabla mostrando los datos del problema.
__________________________________________________________________
Diagnsticos estadsticos
_________________________________________
Clase de Modelo R2 s PRESS
__________________________________________________________________
Modelo cuadrtico 0.947 1.727 49.26
__________________________________________________________________
Modelo cbico 0.952 1.750 59.22
9-42
Dr. Hctor Quevedo Uras
Solucin:
Antes de comenzar, vamos a tomar en cuenta la definicin que dice como calcular el
cuarto inferior y el cuarto superior de un diagrama de caja. Esta definicin dice que,
una vez que se ordenan los datos en forma ascendente, el cuarto inferior y el cuarto
superior se definen como:
Cuarto = Mediana de los mnimos n/2 casos, cuando n es par
inferior Mediana de los mnimos (n + 1)/2 casos, cuando n es impar
Cuarto = Mediana de los mximos n/2 casos, cuando n es par
superior Mediana de los mximos (n + 1)/2 casos, cuando n es impar
El investigador Devore (2001) enlista los valores atpicos usando un diagrama
de caja. Estos datos son: El valor mnimo y el valor mximo, el cuarto inferior y el
cuarto superior, la mediana, la cuarta dispersin fs (la cual es la diferencia entre el
cuarto superior y el cuarto inferior).
Adems, para identificar la presencia de valores inusuales moderados y
extremos se dice que, toda observacin mayor que 1.5fs, del cuarto ms cercano, es un
valor inusual. Anlogamente, si 3fs es mayor que el cuarto ms cercano, entonces, el
valor inusual es extremo.
Los clculos para este problema son:
9-43
Dr. Hctor Quevedo Uras
X = 95.0, n = 25, valor mnimo = 5.0, valor mximo = 114.0, X = 84.92, s = 29.55,
error estndar del promedio = 5.91, Q1 = 89.0, Q3 = 97.5
Cuarto inferior para observaciones impares = mediana de los mnimos (25 + 1)/2 = 13
Cuarta dispersin fs = cuarto superior cuarto inferior
= 97 - 90 = 7
Adems, 1.5fs = (1.5)(7) = 10.5 y 3fs = (3)(7) = 21
Para estimar los valores atpicos inusuales, el criterio es: cualquier observacin
menor que el cuarto inferior, menos 1.5fs o mayor que el cuarto superior ms 1.5fs es un
valor atpico inusual. Esto es: 90 10.5 = 79.5 y 97 + 10.5 = 107.5
Analizando los datos de la TABLA 9.14, se ve que hay un valor atpico (114)
mayor en el extremo superior de la muestra. Adems hay cuatro valores, de este tipo (5,
8, 14, 74), en el extremo inferior. Para identificar los valores extremos se calcula la
diferencia entre el cuarto inferior y 3fs, es decir, 90 21 = 69. Refirindose a la TABLA
9.14 y la Figura 9.11, vemos que las tres observaciones 5, 8 y 14 son valores extremos
(que se eliminarn) y los valores 85 y 114 son valores atpicos moderados.
Boxplot of C1
0 50 100
C1
Figura 9.11. Diagrama de caja con los 3 valores atpicos extremos (5, 8, 14) y los
valores atpicos moderados (85, 114). (Elaboracin propia)
9-44
Dr. Hctor Quevedo Uras
Ejemplo #17. Este ejemplo est encaminado a analizar el efecto que pueda ocurrir en el
modelo de regresin estimado, cuando se eliminan valores extremos. Para los datos de
la tabla de abajo, asumir un modelo polinomial cbico. En la primera instancia, estimar
el modelo cbico incluyendo todas las variables. Enseguida, ajustar un modelo de
regresin polinomial, como el anterior, pero esta vez excluyendo los valores extremos
(5, 8 y 14) estimados en el ejemplo anterior. Analizar en cada caso, los valores de R2,
R2ajustada, el error estndar de lo estimado s, PRESS (la sigla de suma de cuadrados de
prediccin), ANOVA, etc. Ver si hay diferencias significantes en cada uno de los dos
casos. Hacer una tabla con los dos modelos de regresin que incluya las estadsticas
anteriores, correspondientes a cada uno de los dos modelos probados, bajo las dos
condiciones.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
9-45
Dr. Hctor Quevedo Uras
9-46
Dr. Hctor Quevedo Uras
Source of variation DF SS MS F p
Due to Regression 3 19072.1 6357.4 70.57 0.000
Residual Error 21 1891.7 90.1
Total 24 20963.8
Analysis of Variance
Source of Variation DF SS MS F p
Due to Regression 3 1232.81 410.94 187.00 0.000
Residual Error 18 39.56 2.20
Total 21 1272.36
9-47
Dr. Hctor Quevedo Uras
TABLA 9.17. Tabla mostrando el resumen de los resultados de los dos modelos
probados, es decir, con y sin los valores extremos. (Elaboracin propia)
Tipo de modelo R2 R2ajustada s PRESS
Modelo con valores extremos 91.0% 89.7% 9.491 2749.98
Modelo sin valores extremos 96.9% 96.5% 1.482 105.10
9-48
Dr. Hctor Quevedo Uras
D = (9-14)
n
e2t
t=1
Donde:
D es la estadstica de Durbin-Watson
et y et-1 relacin entre los residuos sobre el periodo de tiempo
n es el nmero de casos
En general, a menos que las observaciones sean de series de tiempo, la
estadstica de Durbin-Watson debera ser ignorada, porque esta estadstica da una
prueba de autocorrelacin positiva o negativa, solamente, para series de tiempo.
9-49
Dr. Hctor Quevedo Uras
9-50
Dr. Hctor Quevedo Uras
9-51
Dr. Hctor Quevedo Uras
> 0, porque los errores aleatorios adyacentes t y t-1 tienden a ser de la misma
magnitud cuando estn positivamente autocorrelacionados. Por lo tanto, la diferencia
en los resultados t - t-1 tienden a ser menores cuando > 0, lo cual lleva a un
numerador pequeo en la funcin de D y, por lo tanto, a una prueba estadstica de D
pequea.
Las tablas de abajo muestran las pruebas de los linderos de Durbin-Watson, para
un nivel de significancia de = 0.05 y 0.01. Como se ve, la columna de la izquierda
seala los valores de n. Las siguientes columnas dan los valores para cada k con sus
correspondientes linderos. Siendo as, las tablas de abajo muestran las pruebas de los
linderos de Durbin-Watson para los niveles significancia de = 0.05 y = 0.01.
9-52
Dr. Hctor Quevedo Uras
Tabla 9.19. Tabla mostrando las pruebas de los linderos de Durbin-Watson para un
nivel de significancia de = 0.05.
Fuente: Keller, G, Brian Warrack, Henry Bartel. Statistics for Management and
Economics (1990).
9-53
Dr. Hctor Quevedo Uras
Tabla 9.20. Tabla mostrando las pruebas de los linderos de Durbin-Watson para un
nivel de significancia de = 0.01 (continuacin).
Fuente: Keller, G, Brian Warrack, Henry Bartel. Statistics for Management and
Economics (1990).
9-54
Dr. Hctor Quevedo Uras
Ejemplo #18. Se dan los siguientes datos adaptados del libro Applied Linear Regresin
Models de Neter et al. (1996):
(et et-1)2 = 0.09794, e2t = 0.1333018 con una tamao de muestra de n = 20. Probar las
hiptesis (de autocorrelacin positiva) sealadas abajo usando niveles de significancia
de 0.05 y 0.01:
Ho: = 0
Ha: > 0
Solucin:
Usando la ecuacin (9-14) y sustituyendo da:
20
(et et-1)2
t=2
0.09794
D = = = 0.735
20 0.13330
2
e t
t=1
9-55
Dr. Hctor Quevedo Uras
9-56
Dr. Hctor Quevedo Uras
9-57
Dr. Hctor Quevedo Uras
9-58
Dr. Hctor Quevedo Uras
Ejercicios Captulo 9
9.1. Este es un ejercicio relacionado con el ajustamiento del mejor modelo de
regresin. La tabla de abajo da los datos.
Tabla mostrando los datos. (Elaboracin propia)
X | 0 1 2 3 4 5 6 7 8 9
___________________________________________________________________
Y | 9.1 7.3 3.2 4.6 4.8 2.9 5.7 7.1 8.8 10.2
Distancia despus
de frenar el auto, d (m) | 17 27 43 63 89 120
9-59
Dr. Hctor Quevedo Uras
Presin de oxgeno (x) | 603.40 582.50 556.20 594.60 558.90 575.20 80.10
9-60
Dr. Hctor Quevedo Uras
(a) Realmente encaja un modelo cbico mejor que un modelo de regresin cuadrtico
o lineal? Justificar el argumento. (Si, porque el valor de R2 = 87.5% es el ms alto de los
3 modelos probados; adems el valor de s = 0.6726 y el valor de PRESS = 18.43 son los
valores ms bajos de los 3 modelos probados. Adems, los diagnsticos grficos
tambin apoyan a la nocin de un modelo cbico)
(b) Si el modelo cbico es superior (justificando el argumento), entonces, pronosticar
Y cuando X = 2. (4.422)
9.6. El libro de Probabilidad y Estadstica Aplicadas a la Ingeniera de Montgomery
et al. 1996, p.583 da un ejemplo relacionado con los paneles de las paredes laterales de
un avin formados en una prensa de 1500 toneladas. El costo de fabricacin de cada
unidad cambia con el tamao del lote de produccin. La tabla de abajo proporciona los
datos.
(a) Hacer un diagrama de dispersin y decidir qu grado del modelo polinomial es
conveniente usar.
(b) Hacer un anlisis de varianza y probar que los coeficientes son igual a cero.
Calcular el valor de p y sacar conclusiones.
(c) Obtener el modelo polinomial que mejor encaje en los datos usando la ecuacin
(9-9), con su respectiva prueba de hiptesis.
9-61
Dr. Hctor Quevedo Uras
9-62
Dr. Hctor Quevedo Uras
9-63
Dr. Hctor Quevedo Uras
(b) Completar la tabla de abajo con los resultados de los cuatro modelos probados
y decir cual es el modelo superior.
9-64
Dr. Hctor Quevedo Uras
con interaccin
9.10. Analizar las grficas de abajo de y versus x1 para una variedad de valores de x2 y
determinar si hay o no interaccin.
Grficas (a), (b), (c), (d), (e) y (f) de y en funcin de varios valores de x. (Elaboracin
propia)
9.11. El texto de los autores Michael J. Neter, H., Kutner, Christopher J. Nachtsheim
y William Wasserman, cuyo ttulo es Applied Linear Regression Models (1996)
discute la eficiencia de un tipo de un mecanismo de transmisin que funciona a ms
de la capacidad normal se prueba para reducir el consumo de gasolina y, por ende, la
reduccin de la contaminacin ambiental (por las emisiones de gases de
invernadero). Esto se estudi en 12 pruebas, con una camioneta equipada con este
tipo de transmisin. La tabla de abajo muestra la velocidad constante (xi), en millas
por hora, en funcin de las millas por galn obtenidas (yi). Asmase un modelo de
regresin de segundo orden. Los datos se dan en la tabla de abajo.
9-65
Dr. Hctor Quevedo Uras
9-66
Dr. Hctor Quevedo Uras
9-67
Dr. Hctor Quevedo Uras
cuadrados del modelo simple es 130.0 y la suma de los cuadrados del modelo complejo
es de 100.0.
9.15. En una investigacin relacionada con la contaminacin del aire por el ozono, a
nivel del suelo, se sac una muestra de 5 aos (1999-2003) procedente de una estacin
muestreadora localizada en el Parque Chamizal en El Paso, Texas. El mantenimiento
y calibracin de los aparatos de esta estacin muestreadora fue hecha por la E. P. A. de
Los Estados Unidos. El estudio consisti en el procesamiento estadstico de variables,
como el ozono (O3), el monxido de nitrgeno (NO), el bixido de nitrgeno (NO2) y
la temperatura en grados Fahrenheit (oF). Esto se hizo con el objeto de obtener un
modelo de regresin estadstico para fines de prediccin. El procedimiento consisti en
sacar los promedios (de los valores espacio-temporales de una hora), de cada una de las
4 variables independientes de cada una de las 24 horas del da de cada mes de cada uno
de los 5 aos. Aproximadamente, se procesaron 178,560 datos (24 horas x 31 das x 12
meses x 5 aos x 4 variables). Los promedios de los promedios, en partes por billn
(ppb) se dan abajo. Hacer los siguientes clculos:
(a) Graficar los datos para ver el tipo de la funcin grfica que se pueda esperar.
Sugerencia: Usar el paquete de computadora Excel.
(b) Para obtener el mejor candidato del modelo de regresin usar un best subset
regresin (mejor subconjunto de regresin) y un Stepwise Regresin (regresin por
pasos). Evaluar la utilidad del modelo usando los criterios R2, s, Cp y PRESS y los
criterios subjetivos (grficas de residuales y prueba de normalidad).
(c) Usando el modelo de regresin seleccionado, para el mes de julio, predecir la
concentracin de ozono, si la concentracin de NO es igual a 4.0 ppb, NO2 igual a 11.8
ppb, y la temperatura es de 23.5 oC.
La tabla de abajo muestra la informacin requerida.
9-68
Dr. Hctor Quevedo Uras
(a) Usando el programa Excel introducir los datos en la hoja de Excel, de la siguiente
manera: En la primera columna poner los meses del ao, en la segunda columna poner
los valores de O3, en la tercera columna poner los valores de NO y en la ltima columna
poner los valores de NO2. Una vez hecho esto irse a:
Chart Wizard En la ventana de Chart-Wizard-Step 1 of 4 Chart 5 Chart Type
Line Next Data Range (sombreando los datos) Column Next Ttulo
Finsh. Todos estos rdenes generan la grfica mostrada abajo.
90
80
70
60 Conc. O3
50 Conc. NO
40 Conc. NO
30 Temperatura
20
10
0
E F M A M J J A S O N D
9-69
Dr. Hctor Quevedo Uras
9-70
Dr. Hctor Quevedo Uras
Para contestar las preguntas del inciso (c) usar el modelo de regresion seleccionado.
9.16. Las tablas de abajo muestran datos sacados de un experimento, el cual consiste en
4 variables independientes. Se usa un paquete de computadora, el cual selecciona tres
de los modelos candidatos ms apropiados.
(a) Confirmar la seleccin del los tres candidatos modelos de regresin ms apropiados
usando el paquete Minitab, NCSS o SAS.
(b) De los tres modelos finalistas sealados en la tabla de abajo, seleccionar el modelo
ms ptimo basando el criterio en los diagnsticos estadsticos R2, s, PRESS y Cp.
Complementar la decisin usando enfoques subjetivistas, es decir, analizando los
grficos de los residuos estandarizados. Hacer, adems, una prueba de normalidad.
9-71
Dr. Hctor Quevedo Uras
La tabla de abajo muestra los tres mejores candidatos de modelos, para que el lector
haga una decisin sobre cual de los tres modelos es el mejor. Hacer esta decisin final
basndose en los criterios estadsticos R2, s, PRESS y Cp. Pudiera una interaccin
mejorar el modelo de regresin?
Tabla mostrando los resultados. (Elaboracin propia)
Modelo de regresin Fcalc. R2 s PRESS Cp Durbin-Watson
X2, X3 998 0.9940 6.6749 782.1896 11.4013 1.91
X1, X2, X3 1200 0.9970 4.9795 643.3578 3.4075 2.02
X1, X2, X3, X4 852 0.9971 5.1193 741.7557 5.0000 2.02
9.17. Este problema est relacionado con una informacin de datos de un experimento
relacionado entre el pH (X) y la conductividad elctrica (Y). Los datos se dan en la tabla
9-72
Dr. Hctor Quevedo Uras
9-73
Dr. Hctor Quevedo Uras
9.18. Se dan los siguientes datos relacionados con la manufactura de chumaceras para
vehculos. Se sospecha que ciertas mediciones no estn dentro del rango permitido,
posiblemente, debido a fallas de los operadores o tal vez de la maquinaria.
9-74
Dr. Hctor Quevedo Uras
modelos es superior.
9.19. Se da la tabla de abajo con datos relacionados con las concentraciones de
monxido de carbono (CO) emitidas por motores de combustin interna. Sin embargo,
se argumenta que, el aparato analizador que muestreaba el CO, pudo haber tenido fallas
durante el muestreo de CO debido a que se notaron valores fuera de lo normal. Para
verificar si en verdad hubo valores atpicos en las concentraciones de CO, se requiere
saber, cuales fueron los valores extremos. Para tales fines usar diagramas de caja que
identifiquen valores atpicos extremos. Para esto se da la tabla de abajo.
Tabla mostrando los valores de las concentraciones de monxido de carbono (ppm).
(Elaboracin propia).
Concentracin de CO | 95 90 90 80 75 65 45 60 57 95 97 130 130 120
105 103 100 99 99
No. de observacin | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
18 19
9-75
Dr. Hctor Quevedo Uras
que no incluye los valores extremos. Bajo estas condiciones, los valores de los
diagnsticos estadsticos, para el modelo de regresin, sin los valores atpicos extremos
son: R2 = 98,4%, R2ajustada = 98.2%, s = 2.51, PRESS = 135.74. En contraste, para el
modelo de regresin cuadrtico, que incluye todos los valores atpicos extremos, los
valores de los diagnsticos estadsticos son: R2 = 93.6, R2ajustada = 92.8%, s = 6.26 y
PRESS = 949.77)
(f) De acuerdo a los diagnsticos objetivistas y subjetivistas, determinar cual de los
dos modelos es superior.
9.20. El texto de Jay L. Devore intitulado Probabilidad y Estadstica para Ingeniera
y Ciencias (2001) cita una investigacin para determinar la concentracin de cocana
en la sangre (mg/L) en una muestra de individuos quienes murieron de delirio excitado
(DE) debido al uso de la cocana. Adems, hubo otra muestra de cocana en la sangre
de otro grupo de adictos a esta droga, quienes murieron por sobredosis, sin delirio
excitado. El tiempo de supervivencia de ambos grupos fue de 6 horas. Los datos
adjuntos se graficaron en un diagrama de caja. Este estudio se public en la revista
Fatal Excited Delirium Following Cocaine Use (J. of Forensic Sciences, 1997, pp.
25-31). Los datos de este estudio se dan en la tabla de abajo.
9-76
Dr. Hctor Quevedo Uras
9-77
Dr. Hctor Quevedo Uras
9.22. Los autores Sawyer C. N., Perry L. McCarty del libro Chemistry for Sanitary
Engineers, 2nd. Edition (1967) proporcionan los siguientes datos provenientes de un
experimento para evaluar la desinfeccin de un almacenamiento de agua con una
dosis de cloro dada para matar las bacterias coliformes. Usando el programa Minitab
o cualquier otro programa de computadora, correr un anlisis de regresin
estadstico y hacer lo siguiente:
(a) Decir el orden de la reaccin de estos datos. (Primer orden)
(b) Que tan bien encajan los datos en el modelo de regresin? Para esto, usar un
criterio objetivista y uno subjetivista para justificar la asercin.
(c) Calcular la vida media
(d) Calcular la tasa de la reaccin (0.1848)
(e) Predecir el tiempo que se llevara para aniquilar el 50% de las bacterias
coliformes?
9-78
Dr. Hctor Quevedo Uras
9-79
Dr. Hctor Quevedo Uras
(c) De acuerdo a los resultados obtenidos en los incisos (a) y (b) decidir cual de los
dos modelos es superior, es decir, el modelo de regresin que ajusta mejor a los
datos.
9.24. En un experimento relacionado con la velocidad del vehculo y el consumo de
gasolina se estudia en una muestra de un tamao 15, es decir, usando un solo
vehculo. Los datos se dan en la tabla de abajo.
Tabla mostrando los datos de este experimento.
__________________________________________________________________
Velocidad (km/hr) | 57 57.6 64 66 66 80 81 89.6 98 99
Consumo de gasolina (L/km) | 20 21 25 26.3 26.5 29 29 27 25.5 25
9-80
Dr. Hctor Quevedo Uras
CAPITULO 10
Estadstica no paramtrica. El modelo de ANOVA libre
Ventajas de los mtodos no paramtricos.- Desventajas de los mtodos no
paramtricos.- Prueba de H de Kruskal-Wallis para anlisis de varianza por
rangos.- Pruebas de hiptesis con las funciones no paramtricas.-
Procedimientos de pruebas de Kruskal-Wallis para ANOVA simple.- Pruebas
de hiptesis no tradicionales, para la prueba de Kruskal-Wallis, es decir,
usando el valor de la probabilidad p.-
Cuando se estudian procedimientos libres o de pruebas no paramtricas se incluyen
la prueba de suma de rangos de Wilcoxon, la prueba de Kruskal-Wallis para
diseos completamente aleatorizados, la prueba de Friedman, la prueba de
Kolmogorov-Smirnov, etc. Existen muchas aplicaciones en la ciencia y en la
ingeniera donde los datos se reportan, no como valores continuos, sino en una
escala ordinal de tal manera que se puedan asignar rangos a los datos obtenidos.
Todos los mtodos discutidos anteriormente, como la distribucin normal, la
distribucin de t de estudiante, la distribucin de F, el modelo de regresin, etc., se
llaman mtodos estadsticos paramtricos. Esto se debe a qu, estas distribuciones
continuas asumen que la variacin aleatoria de los datos debe de seguir a la
suposicin de normalidad. Sin embargo, existen situaciones en que las
suposiciones de normalidad no se satisfacen para las pruebas de hiptesis. Para
resolver este problema, los estadsticos han diseado varias alternativas para
aquellos investigadores que estn renuentes a aceptar las suposiciones de
normalidad, es decir, de funciones no paramtricas. Estos procedimientos no
paramtricos se aplican igualmente a distribuciones paramtricas y a distribuciones
no paramtricas.
10-1
Dr. Hctor Quevedo Uras
10-2
Dr. Hctor Quevedo Uras
prdida de peso de una sola libra, recibe la misma representacin que la prdida de
50 libras.
2. Las pruebas no paremtricas no tienen la eficiencia de las pruebas paramtricas.
Esto se debe a qu, con los mtodos no paramtricos, en las pruebas de hiptesis se
necesita una fuerte evidencia, antes de que se pueda rechazar la hiptesis.
La TABLA 10.0 muestra una comparacin entre los mtodos paramtricos y los
no paramtricos.
TABLA 10.0. Tabla mostrando una comparacin entre los mtodos paramtricos y
los mtodos no paramtricos. (Elaboracin propia)
Aplicacin Prueba Prueba no Eficiencia
paramtrica paramtrica
Datos pareados para Prueba de z Prueba de 0.63
muestras dependientes o de t* signo
+
2 2
** z = ( X 1 X 2) (1 2) / 1 2
con 1 y 2 conocidas
n 1 n 2
10-3
Dr. Hctor Quevedo Uras
10-4
Dr. Hctor Quevedo Uras
10-5
Dr. Hctor Quevedo Uras
Los niveles de significancia son los mismos que las pruebas paramtricas, es decir,
= .05 y = .01. Estos valores se buscan en la tabla de la JI cuadrada con 2,
donde es igual a .05 o .01 (extremo derecho de la tabla).
Pruebas de hiptesis no tradicionales, para la prueba de Kruskal-Wallis, es
decir, usando el valor de la probabilidad p
Para hacer estas pruebas de hiptesis no tradicionales usando el valor de p, se
siguen los mismos criterios usado anteriormente. El procedimiento se hace
buscando el valor de la estadstica calculada H en la tabla de la distribucin de JI
cuadrada, y se hace una interpolacin usando la misma frmula usada con las
pruebas paramtricas.
Ejemplos usando la prueba de Kruskal-Wallis
Ejemplo #1. Se quiere probar si existen diferencias en las concentraciones de
xidos de nitrgeno (NO2) provenientes de tres muestreadores (1, 2 y 3)
localizados en diferentes lugares. Probar que no hay diferencias entre las
concentraciones de xido de nitrgeno, entre las tres poblaciones muestreadas.
Usar = 0.05. Las concentraciones de NO2 se dan en la tabla de abajo.
TABLA 10.1. Tabla mostrando las concentraciones de xidos de nitrgeno (NOx)
en ppm provenientes de los tres muestreadores. (Elaboracin propia)
Muestreador 1 Muestreador 2 Muestreador 3
51 14 89
32 31 20
17 68 60
69 87 72
86 20 56
62 28 22
96 77
97
10-6
Dr. Hctor Quevedo Uras
Solucin:
Primeramente, se tienen que ordenar los rangos, para cada uno de los tres
muestreadores. Aqu, sin embargo, hay que tener cuidado de tomar en
consideracin situaciones donde hay repeticiones. En este caso hay dos
repeticiones en los muestreadores 2 y 3. Estas situaciones se modifican como se ve
en la TABLA 10.2 de abajo. Analizando la tabla de abajo, vemos que, el marcador
ms bajo, es el 14 de la columna dos, el 17 de la columna uno y, el 20 de la
columna dos y tres. La tabla de abajo muestra el orden de los rangos.
TABLA 10.2. Tabla mostrando los datos de los marcadores con sus respectivos
rangos. (Elaboracin propia)
__________________________________________________________________
Mestreador 1 Muestreador 2 Muestreador 3
10-7
Dr. Hctor Quevedo Uras
Solucin:
10-8
Dr. Hctor Quevedo Uras
10-9
Dr. Hctor Quevedo Uras
10-10
Dr. Hctor Quevedo Uras
Rango | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 118
TABLA 10.7. Tabla mostrando los cuatro marcadores con sus correspondientes
rangos.
(1) (2) (3) (4)
.001 .01 .05 .10
_______________ ______________ ______________ _______________
Marcador Rango Marcador Rango Marcador Rango Marcador Rango
103 1 104 2 153 15 207 18
111 5 113 6.5* 127 11 183 17
107 4 117 8 143 13.5* 173 16
105 3 120 10 119 9
113 6.5* 138 12
143 13.5*
*Debido a que hay dos 113 y dos 143, entonces el rango correspondiente a 113 es
(6+7)/2 = 6.5 y el rango correspondiente a 143 es (13 + 14)/2 = 13.5
Ahora se procede a sumar los rangos para cada una de las cuatro columnas.
R1 = 13 R2 = 33 R3 = 74 R4 = 51
n1 = 4 n2 = 5 n=6 n=3
La regin crtica derecha se calcula usando la distribucin de JI cuadrada. El valor
de 2; = 20.05;3 = 7.82, es decir, donde = k 1 = 4 1 = 3.
Enseguida sustituyendo los valores de arriba en la ecuacin (10-1)
10-11
Dr. Hctor Quevedo Uras
[
H = + + + 3(18 + 1) ]
18(18+1) 4 5 6 3
10-12
Dr. Hctor Quevedo Uras
Ejercicios Captulo 10
10-13
Dr. Hctor Quevedo Uras
Tabla mostrando las temperaturas del cuerpo (oF) clasificadas por edades.
(Elaboracin propia)
10.3. Un panel de siete expertos fue consultado para calificar a cinco industrias (A,
B, C, D, E) en cuanto a la probabilidad de que cambios tecnolgicos produzcan
mejoras en el control de la contaminacin ambiental, en el curso de los prximos
10 aos. Las calificaciones en se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboracin propia)
Industrias
_________________________________________________
A B C D E
_________________________________________________
Experto
1 0.15 0.75 0.10 0.00 0.30
2 0.30 0.60 0.20 0.05 0.25
3 0.20 0.80 0.30 0.00 0.50
4 0.00 0.50 0.25 0.10 0.60
5 0.10 0.55 0.15 0.15 0.40
6 0.25 0.70 0.35 0.25 0.45
7 0.40 0.95 0.45 0.20 0.35
(a) Probar con el nivel de significancia de = 0.05, que las poblaciones son
idnticas.
(b) Calcular el valor de la probabilidad p.
10-14
Dr. Hctor Quevedo Uras
10-15
Dr. Hctor Quevedo Uras
10-16
Dr. Hctor Quevedo Uras
CAPITULO 11
Series de tiempo
Clasificacin de los movimientos de las series de tiempo.- Tendencias a largo
plazo.- Componentes cclicos de series de tiempo.- Variaciones estacionales.-
Variacin irregular.- Mtodos para encontrar lneas de tendencia.- Lnea de los
cuadrados mnimos y parbolas de los cuadrados mnimos.-
Cualquier variable en funcin del tiempo, en sucesin, se llama series de tiempo. Las
series de tiempo son una secuencia de valores de variables tomadas en periodos de
tiempo sucesivos. La grfica de una serie de tiempo es un diagrama, con el eje vertical
mostrando el valor observado (y) y, con el eje horizontal denotando el tiempo
(minutos, das, aos, etc.).
Las grficas como los histogramas o diagramas de tallo y hoja son mtodos
visuales tiles para mostrar la variacin en los datos. Sin embargo, el tiempo es un
factor muy importante que contribuye a la variacin observada de los datos, que los
histogramas o las grficas de caja no los toman en cuenta.
Las series de tiempo son un conjunto de observaciones tomadas a tiempos
especficos, usualmente, a intervalos iguales en un orden cronolgico. Las series de
tiempo o secuencias de tiempo se definen como datos estadsticos que son
coleccionados, registrados u observados en incrementos de tiempos sucesivos. El
anlisis de los datos de las series de tiempo es de inters para aqullos quienes deseen
entender la naturaleza de los datos pasados y presentes. Tambin, las series de tiempo
son de inters para aquellos investigadores, quienes deseen usar el conocimiento de
datos pasados para predecir el futuro.
Las aplicaciones de las series de tiempo son muy comunes en la economa,
pero tambin en la economa o la ingeniera. Por ejemplo:
11-1
Dr. Hctor Quevedo Uras
1. Los gobiernos de las naciones industrializadas quieren saber los valores futuros de
las tasa de intereses monetarios. Las naciones en desarrollo quieren saber las
tendencias de las tasas de devaluacin de la moneda. Tambin es deseable predecir las
tasas de empleos o de desempleos. Igualmente, es importante saber los porcentajes de
los incrementos de los costos de la vida.
2. Otras aplicaciones de las series de tiempo son los pronsticos de las tasas de inters
para la construccin de viviendas y el costo de los materiales de construccin.
3. Tambin las compaas manufacturadoras quieren pronosticar la demanda de sus
productos y sus acciones en el mercado.
4. En ingeniera ambiental, los activistas y protectores del medio ambiente quieren
saber cules son las tendencias en los aumento de los gases de invernadero, como el
bixido de carbono (ocasionado por la emisiones vehiculares, la industria, fuegos
forestales, etc.) que estn calentando la tierra, fundiendo los glaciares montaosos y
las capas polares y cambiando el clima mundial. Tambin es interesante saber las
tendencias y los aumentos de la radiacin ultravioleta, que tanto dao est causando al
ser humano, por la destruccin del ozono natural estratosfrico, causado por la
irracionalidad del hombre moderno.
5. Las series de tiempo tambin aplican para saber las tendencias y pronsticos de los
incrementos de la poblacin mundial, etc.
Cuando se grafican las mediciones de series de tiempo, a menudo se observan
tendencias, ciclos o variaciones importantes de los datos que, de otra manera, pasaran
inadvertidos.
Definicin: Matemticamente, una serie de tiempo se define por valores Y1, Y2,....... de
una variable Y, como la temperatura, concentraciones de contaminantes, como CO2,
SO2, partculas atmosfricas, etc., a tiempos t1, t2,.... Por lo tanto, Y es una funcin de t
11-2
Dr. Hctor Quevedo Uras
11-3
Dr. Hctor Quevedo Uras
sentido de que cubren periodos largos de tiempo, tienen causas diferentes y son
menos predecibles. Las fluctuaciones duran de 2 a 10 aos, o ms, cuando se miden
las ondas de cresta a cresta o de canal a canal. Ejemplos de componentes ciclos son
periodos de recesiones econmicas o de periodos de inflacin, demanda de productos
a largo plazo, etc. Esta situacin se ve en la Figura 11.0 (b)
Variaciones estacionales
Este tipo de series de tiempo se refieren a variaciones peridicas, pero no estn
limitadas a variaciones con la estacin del ao. Estos son patrones de periodos en las
series de tiempo que se completan en un ao y, luego se repiten de acuerdo al mismo
patrn de periodo en aos, subsecuentes. Por ejemplo, los precios de los mercados
financieros pueden mostrar tendencias altas o bajas en un da o en una semana.
En estudios ambientales, las fluctuaciones de los contaminantes muestran
tendencias cclicas durante el da, como en el caso del estudio de las concentraciones
de ozono troposferico. Otros ejemplos son la produccin de ciertos productos de
granjas agrcolas, el nmero de vehculos que pasan por cierto punto, entre dos sitios,
etc. La unidad de tiempo en variaciones estacionales es menos que un ao, pero
pueden ser de un mes, una semana, o parte del da. Esta situacin se ve en la Figura
11.0(c).
Variacin irregular
Este es un tipo de variacin que no est considerado por tendencias, ciclos o factores
estacionales, sino que se compone de fuerzas no recurrentes, espordicas que no se
describen como o atribuidas a factores de tendencias, ciclos, o estacionales. Ejemplos
de variaciones irregulares son movimientos espordicos de series de tiempo debido a
inundaciones, granizadas, heladas, tornados, huracanes, sequas, fuegos forestales,
etc.
11-4
Dr. Hctor Quevedo Uras
Figura 11.0. Grficas mostrando los tipos de tendencias. La grfica (a) muestra una
tendencia de lnea a largo plazo o de movimiento secular. La grfica (b) muestra una
lnea de tendencia a largo plazo con un movimiento cclico sobrepuesto. La grfica (c)
muestra tendencias cclicas a largo plazo y movimientos estacionales. (Spiegel, 1961).
11-5
Dr. Hctor Quevedo Uras
11-6
Dr. Hctor Quevedo Uras
11-7
Dr. Hctor Quevedo Uras
11-8
Dr. Hctor Quevedo Uras
Figura 11.2. Grfica mostrando el mtodo de los cuadrados mnimos. Fuente: Spiegel
(1961).
Los puntos de los datos se dan por (X1, Y1), (X2, Y2), ..., (Xn, Yn). Para un valor dado de
X, digamos, X1, habr una diferencia entre el valor Y1 y el valor correspondiente como
se determin de la curva C. Como se ve en la grfica, denotamos esta diferencia por
D1, la cual, en algunas ocasiones se refiere como la desviacin, error o residual y
puede ser positivo, negativo o cero. Similarmente, correspondiendo a los valores de
X1, X2,.. Xn, obtenemos las desviaciones D2, D3, ..., Dn. La medicin de bondad de
ajuste se da por la relacin D21 + D22 + ... + D2n. De esta manera, si la suma de estos
cuadrados D21, D22, D23, etc., es pequea, el ajuste es bueno. Pero, si la suma es
grande, el ajuste es malo, lo cual quiere decir que, el error o residual ser grande,
indicando mucha variacin entre los datos (Spiegel, 1961).
Definicin. De todas las curvas que aproximan un grupo de datos en el sentido de los
cuadrados mnimos, la curva que tiene la propiedad de: D21 + D22 +... + D2n es un
mnimo y se llama la curva que mejor ajusta los datos. Una curva que tenga esta
propiedad se dice que ajusta los datos en el sentido del mejor cuadrado mnimo y se
llama la curva de los cuadrados mnimos. Por lo tanto, una lnea que tenga esta
propiedad se llama la lnea de los cuadrados mnimos, parbola de los cuadrados
mnimos, etc.
11-9
Dr. Hctor Quevedo Uras
(Aos codificados) | 1 3 4 6 8 9 11 14 15 16
11-10
Dr. Hctor Quevedo Uras
(a) Graficamos los puntos (1,1), (2,3), (4,4), (6,4), (8,5), (9,7), (11,8), (14,9) en un
sistema de coordenadas rectangulares como se muestra en la Figura 11.3 de abajo.
Grfica mostrando las concentraciones de bixido de carbono vs. tiempo
12
10
8
Conc. de CO2 (Y)
0
0 2 4 6 8 10 12 14 16
Tiempo (X)
Figura 11.3. Grfica mostrando las concentraciones de CO2 en funcin del tiempo.
(Elaboracin propia)
11-11
Dr. Hctor Quevedo Uras
n XY (X)(Y)
b = (11-3)
n X 2 (X)2
11-12
Dr. Hctor Quevedo Uras
(8)(364) (56)(40)
Pendiente = b = = .636
(8)(524) (56)2
11-13
Dr. Hctor Quevedo Uras
160
140
Demanda trimestral (Y)
120
100
80
60
40
20
0 2 4 6 8 10 12
Periodos de tiempo (X)
Figura 11.4. Grfica mostrando los datos del ejemplo de arriba. (Elaboracin propia)
(a) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos
cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y
punto Q. Enseguida, estimamos las coordenadas de estos pares de puntos que son (1,
1) y (12, 7.5). Ahora, usando la ecuacin de los cuadrados mnimos dada por:
Y = a + b(X) (11-3)
Ahora, sustituyendo todos los valores de Y1 = 1, X2 = 0 y Y2 = 7.5 y X2 = 12, en la
ecuacin (11-3) de arriba, nos da:
1.0 = a + b(0) y 7.5 = a + b(12).
(b) Usando mtodos estadsticos calculamos las sumatorias:
X = 78, X 2 = 650, (X)2/n = 507, Y = 1188, Y 2 = 140774, (Y)2/n = 117,612
Intercepto Y = 20.55, Pendiente = 12.07, R = 0.95.
11-14
Dr. Hctor Quevedo Uras
Por lo tanto, la ecuacin de lineal de las series de tiempo para este problema es:
Yc = 20.55 + 12.07(X)
Para trazar una lnea recta sobre los datos, seleccionamos dos puntos, digamos X = 3 y
X = 9 y resolviendo por Yc en la ecuacin lineal de las series de tiempo, da las
coordenadas (3, 56.76) y (9, 129.18). Ahora, juntamos los puntos de estas dos
coordenadas y trazamos la lnea como se ve en la figura de arriba, la cual muestra la
demanda trimestral (Y) por un periodo de 3 aos (X).
(c) Para predecir el valor de Yc cuando X = 140 los podemos hacer por interpolacin
usando la Figura 11.4 o, simplemente, sustituyendo el valor de X = 140 en la ecuacin
de las series de tiempo, esto es:
Yc = 20.55 + 12.07(X)
= 20.55 + 12.07(140)
= 1,710.35
Ejemplo #3. En un estudio hipottico relacionado con los casos de SIDA, se da la
tabla de abajo. Estimar la funcin ajustada de tendencia usando anlisis de tendencia
con una funcin exponencial.
11-15
Dr. Hctor Quevedo Uras
Hacer lo siguiente:
(a) Derivar la ecuacin del modelo propuesto. Con este modelo predecir el nmero de
casos de SIDA para el ao 2008. (El lector lo deber hacer).
MSD 4.13874E+11
15000000
10000000
5000000
2 4 6 8 10 12 14 16 18 20
Index
Figura 11.5. Grfica mostrando la relacin de los casos de SIDA en funcin del
tiempo.
11-16
Dr. Hctor Quevedo Uras
11-17
Dr. Hctor Quevedo Uras
lnea de las series de tiempo (Yc) y trazar una lnea recta sobre los datos grficos
(c) Estimar las concentraciones promedio de partculas para el ao 2003 por medio de
interpolacin y por medio de la ecuacin.
Tabla mostrando los datos del problema. (Elaboracin propia)
________________________________________________________________
Aos Conc. promedio Aos Conc. promedio
(ppm) (ppm)
Ventas
Tiempo
11-18
Dr. Hctor Quevedo Uras
estacionalidad?
Precio
11-19
Dr. Hctor Quevedo Uras
CAPITULO 11
Series de tiempo
Clasificacin de los movimientos de las series de tiempo.- Tendencias a largo
plazo.- Componentes cclicos de series de tiempo.- Variaciones estacionales.-
Variacin irregular.- Mtodos para encontrar lneas de tendencia.- Lnea de los
cuadrados mnimos y parbolas de los cuadrados mnimos.-
Cualquier variable en funcin del tiempo, en sucesin, se llama series de tiempo. Las
series de tiempo son una secuencia de valores de variables tomadas en periodos de
tiempo sucesivos. La grfica de una serie de tiempo es un diagrama, con el eje vertical
mostrando el valor observado (y) y, con el eje horizontal denotando el tiempo
(minutos, das, aos, etc.).
Las grficas como los histogramas o diagramas de tallo y hoja son mtodos
visuales tiles para mostrar la variacin en los datos. Sin embargo, el tiempo es un
factor muy importante que contribuye a la variacin observada de los datos, que los
histogramas o las grficas de caja no los toman en cuenta.
Las series de tiempo son un conjunto de observaciones tomadas a tiempos
especficos, usualmente, a intervalos iguales en un orden cronolgico. Las series de
tiempo o secuencias de tiempo se definen como datos estadsticos que son
coleccionados, registrados u observados en incrementos de tiempos sucesivos. El
anlisis de los datos de las series de tiempo es de inters para aqullos quienes deseen
entender la naturaleza de los datos pasados y presentes. Tambin, las series de tiempo
son de inters para aquellos investigadores, quienes deseen usar el conocimiento de
datos pasados para predecir el futuro.
Las aplicaciones de las series de tiempo son muy comunes en la economa,
pero tambin en la economa o la ingeniera. Por ejemplo:
11-1
Dr. Hctor Quevedo Uras
1. Los gobiernos de las naciones industrializadas quieren saber los valores futuros de
las tasa de intereses monetarios. Las naciones en desarrollo quieren saber las
tendencias de las tasas de devaluacin de la moneda. Tambin es deseable predecir las
tasas de empleos o de desempleos. Igualmente, es importante saber los porcentajes de
los incrementos de los costos de la vida.
2. Otras aplicaciones de las series de tiempo son los pronsticos de las tasas de inters
para la construccin de viviendas y el costo de los materiales de construccin.
3. Tambin las compaas manufacturadoras quieren pronosticar la demanda de sus
productos y sus acciones en el mercado.
4. En ingeniera ambiental, los activistas y protectores del medio ambiente quieren
saber cules son las tendencias en los aumento de los gases de invernadero, como el
bixido de carbono (ocasionado por la emisiones vehiculares, la industria, fuegos
forestales, etc.) que estn calentando la tierra, fundiendo los glaciares montaosos y
las capas polares y cambiando el clima mundial. Tambin es interesante saber las
tendencias y los aumentos de la radiacin ultravioleta, que tanto dao est causando al
ser humano, por la destruccin del ozono natural estratosfrico, causado por la
irracionalidad del hombre moderno.
5. Las series de tiempo tambin aplican para saber las tendencias y pronsticos de los
incrementos de la poblacin mundial, etc.
Cuando se grafican las mediciones de series de tiempo, a menudo se observan
tendencias, ciclos o variaciones importantes de los datos que, de otra manera, pasaran
inadvertidos.
Definicin: Matemticamente, una serie de tiempo se define por valores Y1, Y2,....... de
una variable Y, como la temperatura, concentraciones de contaminantes, como CO2,
SO2, partculas atmosfricas, etc., a tiempos t1, t2,.... Por lo tanto, Y es una funcin de t
11-2
Dr. Hctor Quevedo Uras
11-3
Dr. Hctor Quevedo Uras
sentido de que cubren periodos largos de tiempo, tienen causas diferentes y son
menos predecibles. Las fluctuaciones duran de 2 a 10 aos, o ms, cuando se miden
las ondas de cresta a cresta o de canal a canal. Ejemplos de componentes ciclos son
periodos de recesiones econmicas o de periodos de inflacin, demanda de productos
a largo plazo, etc. Esta situacin se ve en la Figura 11.0 (b)
Variaciones estacionales
Este tipo de series de tiempo se refieren a variaciones peridicas, pero no estn
limitadas a variaciones con la estacin del ao. Estos son patrones de periodos en las
series de tiempo que se completan en un ao y, luego se repiten de acuerdo al mismo
patrn de periodo en aos, subsecuentes. Por ejemplo, los precios de los mercados
financieros pueden mostrar tendencias altas o bajas en un da o en una semana.
En estudios ambientales, las fluctuaciones de los contaminantes muestran
tendencias cclicas durante el da, como en el caso del estudio de las concentraciones
de ozono troposferico. Otros ejemplos son la produccin de ciertos productos de
granjas agrcolas, el nmero de vehculos que pasan por cierto punto, entre dos sitios,
etc. La unidad de tiempo en variaciones estacionales es menos que un ao, pero
pueden ser de un mes, una semana, o parte del da. Esta situacin se ve en la Figura
11.0(c).
Variacin irregular
Este es un tipo de variacin que no est considerado por tendencias, ciclos o factores
estacionales, sino que se compone de fuerzas no recurrentes, espordicas que no se
describen como o atribuidas a factores de tendencias, ciclos, o estacionales. Ejemplos
de variaciones irregulares son movimientos espordicos de series de tiempo debido a
inundaciones, granizadas, heladas, tornados, huracanes, sequas, fuegos forestales,
etc.
11-4
Dr. Hctor Quevedo Uras
Figura 11.0. Grficas mostrando los tipos de tendencias. La grfica (a) muestra una
tendencia de lnea a largo plazo o de movimiento secular. La grfica (b) muestra una
lnea de tendencia a largo plazo con un movimiento cclico sobrepuesto. La grfica (c)
muestra tendencias cclicas a largo plazo y movimientos estacionales. (Spiegel, 1961).
11-5
Dr. Hctor Quevedo Uras
11-6
Dr. Hctor Quevedo Uras
11-7
Dr. Hctor Quevedo Uras
11-8
Dr. Hctor Quevedo Uras
Figura 11.2. Grfica mostrando el mtodo de los cuadrados mnimos. Fuente: Spiegel
(1961).
Los puntos de los datos se dan por (X1, Y1), (X2, Y2), ..., (Xn, Yn). Para un valor dado de
X, digamos, X1, habr una diferencia entre el valor Y1 y el valor correspondiente como
se determin de la curva C. Como se ve en la grfica, denotamos esta diferencia por
D1, la cual, en algunas ocasiones se refiere como la desviacin, error o residual y
puede ser positivo, negativo o cero. Similarmente, correspondiendo a los valores de
X1, X2,.. Xn, obtenemos las desviaciones D2, D3, ..., Dn. La medicin de bondad de
ajuste se da por la relacin D21 + D22 + ... + D2n. De esta manera, si la suma de estos
cuadrados D21, D22, D23, etc., es pequea, el ajuste es bueno. Pero, si la suma es
grande, el ajuste es malo, lo cual quiere decir que, el error o residual ser grande,
indicando mucha variacin entre los datos (Spiegel, 1961).
Definicin. De todas las curvas que aproximan un grupo de datos en el sentido de los
cuadrados mnimos, la curva que tiene la propiedad de: D21 + D22 +... + D2n es un
mnimo y se llama la curva que mejor ajusta los datos. Una curva que tenga esta
propiedad se dice que ajusta los datos en el sentido del mejor cuadrado mnimo y se
llama la curva de los cuadrados mnimos. Por lo tanto, una lnea que tenga esta
propiedad se llama la lnea de los cuadrados mnimos, parbola de los cuadrados
mnimos, etc.
11-9
Dr. Hctor Quevedo Uras
(Aos codificados) | 1 3 4 6 8 9 11 14 15 16
11-10
Dr. Hctor Quevedo Uras
(a) Graficamos los puntos (1,1), (2,3), (4,4), (6,4), (8,5), (9,7), (11,8), (14,9) en un
sistema de coordenadas rectangulares como se muestra en la Figura 11.3 de abajo.
Grfica mostrando las concentraciones de bixido de carbono vs. tiempo
12
10
8
Conc. de CO2 (Y)
0
0 2 4 6 8 10 12 14 16
Tiempo (X)
Figura 11.3. Grfica mostrando las concentraciones de CO2 en funcin del tiempo.
(Elaboracin propia)
11-11
Dr. Hctor Quevedo Uras
n XY (X)(Y)
b = (11-3)
n X 2 (X)2
11-12
Dr. Hctor Quevedo Uras
(8)(364) (56)(40)
Pendiente = b = = .636
(8)(524) (56)2
11-13
Dr. Hctor Quevedo Uras
160
140
Demanda trimestral (Y)
120
100
80
60
40
20
0 2 4 6 8 10 12
Periodos de tiempo (X)
Figura 11.4. Grfica mostrando los datos del ejemplo de arriba. (Elaboracin propia)
(a) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos
cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y
punto Q. Enseguida, estimamos las coordenadas de estos pares de puntos que son (1,
1) y (12, 7.5). Ahora, usando la ecuacin de los cuadrados mnimos dada por:
Y = a + b(X) (11-3)
Ahora, sustituyendo todos los valores de Y1 = 1, X2 = 0 y Y2 = 7.5 y X2 = 12, en la
ecuacin (11-3) de arriba, nos da:
1.0 = a + b(0) y 7.5 = a + b(12).
(b) Usando mtodos estadsticos calculamos las sumatorias:
X = 78, X 2 = 650, (X)2/n = 507, Y = 1188, Y 2 = 140774, (Y)2/n = 117,612
Intercepto Y = 20.55, Pendiente = 12.07, R = 0.95.
11-14
Dr. Hctor Quevedo Uras
Por lo tanto, la ecuacin de lineal de las series de tiempo para este problema es:
Yc = 20.55 + 12.07(X)
Para trazar una lnea recta sobre los datos, seleccionamos dos puntos, digamos X = 3 y
X = 9 y resolviendo por Yc en la ecuacin lineal de las series de tiempo, da las
coordenadas (3, 56.76) y (9, 129.18). Ahora, juntamos los puntos de estas dos
coordenadas y trazamos la lnea como se ve en la figura de arriba, la cual muestra la
demanda trimestral (Y) por un periodo de 3 aos (X).
(c) Para predecir el valor de Yc cuando X = 140 los podemos hacer por interpolacin
usando la Figura 11.4 o, simplemente, sustituyendo el valor de X = 140 en la ecuacin
de las series de tiempo, esto es:
Yc = 20.55 + 12.07(X)
= 20.55 + 12.07(140)
= 1,710.35
Ejemplo #3. En un estudio hipottico relacionado con los casos de SIDA, se da la
tabla de abajo. Estimar la funcin ajustada de tendencia usando anlisis de tendencia
con una funcin exponencial.
11-15
Dr. Hctor Quevedo Uras
Hacer lo siguiente:
(a) Derivar la ecuacin del modelo propuesto. Con este modelo predecir el nmero de
casos de SIDA para el ao 2008. (El lector lo deber hacer).
MSD 4.13874E+11
15000000
10000000
5000000
2 4 6 8 10 12 14 16 18 20
Index
Figura 11.5. Grfica mostrando la relacin de los casos de SIDA en funcin del
tiempo.
11-16
Dr. Hctor Quevedo Uras
11-17
Dr. Hctor Quevedo Uras
lnea de las series de tiempo (Yc) y trazar una lnea recta sobre los datos grficos
(c) Estimar las concentraciones promedio de partculas para el ao 2003 por medio de
interpolacin y por medio de la ecuacin.
Tabla mostrando los datos del problema. (Elaboracin propia)
________________________________________________________________
Aos Conc. promedio Aos Conc. promedio
(ppm) (ppm)
Ventas
Tiempo
11-18
Dr. Hctor Quevedo Uras
estacionalidad?
Precio
11-19
Dr. Hctor Quevedo Uras
CAPITULO 12
Seleccin del tamao de la muestra
Derivacin de la frmula para estimar el tamao ms apropiado de la
muestra para el promedio.- Seleccin del tamao de la muestra para dos
poblaciones.-
12-1
Dr. Hctor Quevedo Uras
por ciento de que el error, al estimar, digamos , sea menor que el error
especificado E, esto es, lo que queremos arriesgar.
En la determinacin del tamao de la muestra en un experimento estadstico
tenemos que saber dos cosas:
1. Qu tan cerca deseamos que nuestra estimacin est del verdadero valor del
parmetro poblacional.
2. Qu tanta certeza deseamos que nuestra estimacin est dentro del nmero de
unidades seleccionadas del valor del parmetro.
Derivacin de la frmula para estimar el tamao ms apropiado de la
muestra para el promedio
Para derivar la frmula para estimar el tamao ptimo de la muestra, usamos la
distribucin de la estadstica del promedio X . Por ejemplo, sabemos qu, de la
distribucin del promedio X mostrada abajo, el intervalo 2X contiene,
aproximadamente, el 95% de los valores de la estadstica del promedio X .
12-2
Dr. Hctor Quevedo Uras
12-3
Dr. Hctor Quevedo Uras
E = 1.96(6.2/150) = 0.992
Aqu, ntese que debido a que queremos menos precisin (usando el nivel de
confianza de 95%) el error es ms pequeo que si usamos el nivel de confianza de
99%. Tambin es de notarse que, a medida que el tamao de n se hace ms grande,
el error E disminuye.
Ejemplo #3. En un estudio de qumica, en un artculo publicado en el Journal of
Heat Transfer, se describe un nuevo mtodo para medir la conductividad trmica
del hierro Armco. Supngase que se desea que el error promedio en la
conductividad trmica del hierro Armco sea menor que 0.05 Btu/hr-ft-oF, con un
nivel de confianza del 95%. Entonces, si de estudios previos se sabe que la
desviacin estndar es de = 0.10, estimar el tamao de muestra requerido.
Solucin:
Aqu, z/2 = z0.05/2 = z0.025 = 1.96, = 0.10, E 0.05.
Usando la ecuacin (12-4): n = (z/2 / E)2 y sustituyendo estos valores nos da:
n = [(1.96)(0.10) / 0.05)]2
= 15.37 16
Nota 1. Siempre queremos redondear el tamao de la muestra de manera que, el
nmero requerido en la muestra sea cuando menos adecuado, en lugar de un poco
adecuado. Esto es un convencionalismo.
Ejemplo #4. En un estudio de recoleccin de basura desechada por el sector
domstico, es decir, del salvamento de basura reciclable, queremos estimar el
promedio del plstico desechado por las casas. Qu tamao de muestra de casas
debe ser seleccionado, aleatoriamente, si queremos estar seguros, en 99%, que el
promedio muestral est dentro de 0.250 kilogramos del verdadero promedio
poblacional ? Asumir que estudios pilotos dan una desviacin estndar conocida
12-5
Dr. Hctor Quevedo Uras
de = 1.100 kilogramos.
Solucin:
Queremos un tamao de muestra n, dado que = 0.01 (99% de nivel de confianza)
de manera que, z/2 = z0.01/2 = 2.575 (valor constante de la tabla de la distribucin
normal con 99% nivel de confianza). Adems, E = 0.250, = 1.100. As, usando la
frmula (12-5) nos da:
n = (z/2 / E)2
= [(2.575)(1.100) / (0.250)]2
= 128.37
129
En conclusin, debemos de obtener una muestra, de cuando menos 129 casas
domsticas seleccionadas aleatoriamente (que estn descartando el plstico). Con
semejante muestra, estaremos confiados en un 99% de que el promedio muestral
X estar dentro de 0.250 kilos de .
tener una confianza del 95% de que el error, al estimar la diferencia entre los
promedios de las dos frmulas diferentes, sea menor que 1?
Solucin:
Aqu, usamos la frmula (12-7) para calcular el tamao de la muestra de dos
poblaciones, es decir,
n = (z/2 / E)2 (21 + 22)
Donde:
z/2 = z0.05/2 = z.025 = 1.97, E = 1, 21 = 1.5, 22 = 1.2
Sustituyendo estos valores en la frmula de arriba da:
n = (1.95 / 1)2 (1.5 + 1.2)
= 10.27 11
Por lo tanto, el tamao de la muestra para las poblaciones 1 y 2 es:
n = n1 = n2 = 11
12-8
Dr. Hctor Quevedo Uras
Ejercicios Captulo 12
12.1. Se sabe que la duracin, en horas, de un foco de 75 watts tiene una
distribucin, aproximadamente normal, con una desviacin estndar de 25 horas.
Supngase que se desea una confianza del 95% en que el error en la estimacin de
la duracin promedio sea menor que 5 horas. Qu tamao de muestra debe
usarse? ( 97)
12.2. Hacer el mismo problema que el anterior, pero ahora usando una confianza
de 99% y un error E = 1 y comparar los resultados.
12.3. Un ingeniero automotriz desea determinar el tiempo promedio que tardara
un mecnico en girar las llantas de un auto. Este ingeniero quiere estimar, con una
confianza de 95%, que el promedio de su muestra es imprecisa en cuando ms 0.50
minutos. Si sabe de estudios pilotos anteriores que la desviacin estndar es de =
1.6 minutos, qu tan grande deber ser la muestra que debe de seleccionar,
aleatoriamente? Sugerencia: Usar la frmula n = (z/2 /E)2 (39.3 40 mecnicos)
12.4. El director de cierta universidad desea usar el promedio de una muestra
aleatoria para estimar el monto promedio de tiempo que se les lleva a los
estudiantes para ir de un saln a otro y tomar sus clases sin llegar tarde. Para esto
desea afirmar con 99% de confianza que el error es cuando ms de 0.25 minutos.
Experiencias anteriores estiman una desviacin estndar de = 1.40 minutos.
Siendo as, qu tan grande deber ser la muestra que se deba tomar?
12.5. La Environmental Protection Agency (EPA) de los Estados Unidos desea
conducir una prueba de millaje de cierto modelo de un auto importado. El
ingeniero estadstico de la EPA desea estimar el promedio , de millas por galn
de combustible usado por este modelo, con 95% de nivel de confianza. Asumiendo
12-9
Dr. Hctor Quevedo Uras
que = 2.5 millas por galn, qu tamao de muestra (nmero de autos de este
modelo) deber tomar para conducir esta prueba? (n = 25)
12.6. Considerar el ejemplo 12.1 de la gasolina oxigenada, para la estimacin del
tamao de las muestras para las poblaciones uno y dos. Siendo as, estimar los
tamaos de las muestras apropiados, si queremos una confianza de 99% y el error
de la estimacin de las diferencias entre los promedios sea menor que 4.
12-10
Dr. Hctor Quevedo Uras
CAPITULO 12
Seleccin del tamao de la muestra
Derivacin de la frmula para estimar el tamao ms apropiado de la
muestra para el promedio.- Seleccin del tamao de la muestra para dos
poblaciones.-
12-1
Dr. Hctor Quevedo Uras
por ciento de que el error, al estimar, digamos , sea menor que el error
especificado E, esto es, lo que queremos arriesgar.
En la determinacin del tamao de la muestra en un experimento estadstico
tenemos que saber dos cosas:
1. Qu tan cerca deseamos que nuestra estimacin est del verdadero valor del
parmetro poblacional.
2. Qu tanta certeza deseamos que nuestra estimacin est dentro del nmero de
unidades seleccionadas del valor del parmetro.
Derivacin de la frmula para estimar el tamao ms apropiado de la
muestra para el promedio
Para derivar la frmula para estimar el tamao ptimo de la muestra, usamos la
distribucin de la estadstica del promedio X . Por ejemplo, sabemos qu, de la
distribucin del promedio X mostrada abajo, el intervalo 2X contiene,
aproximadamente, el 95% de los valores de la estadstica del promedio X .
12-2
Dr. Hctor Quevedo Uras
12-3
Dr. Hctor Quevedo Uras
E = 1.96(6.2/150) = 0.992
Aqu, ntese que debido a que queremos menos precisin (usando el nivel de
confianza de 95%) el error es ms pequeo que si usamos el nivel de confianza de
99%. Tambin es de notarse que, a medida que el tamao de n se hace ms grande,
el error E disminuye.
Ejemplo #3. En un estudio de qumica, en un artculo publicado en el Journal of
Heat Transfer, se describe un nuevo mtodo para medir la conductividad trmica
del hierro Armco. Supngase que se desea que el error promedio en la
conductividad trmica del hierro Armco sea menor que 0.05 Btu/hr-ft-oF, con un
nivel de confianza del 95%. Entonces, si de estudios previos se sabe que la
desviacin estndar es de = 0.10, estimar el tamao de muestra requerido.
Solucin:
Aqu, z/2 = z0.05/2 = z0.025 = 1.96, = 0.10, E 0.05.
Usando la ecuacin (12-4): n = (z/2 / E)2 y sustituyendo estos valores nos da:
n = [(1.96)(0.10) / 0.05)]2
= 15.37 16
Nota 1. Siempre queremos redondear el tamao de la muestra de manera que, el
nmero requerido en la muestra sea cuando menos adecuado, en lugar de un poco
adecuado. Esto es un convencionalismo.
Ejemplo #4. En un estudio de recoleccin de basura desechada por el sector
domstico, es decir, del salvamento de basura reciclable, queremos estimar el
promedio del plstico desechado por las casas. Qu tamao de muestra de casas
debe ser seleccionado, aleatoriamente, si queremos estar seguros, en 99%, que el
promedio muestral est dentro de 0.250 kilogramos del verdadero promedio
poblacional ? Asumir que estudios pilotos dan una desviacin estndar conocida
12-5
Dr. Hctor Quevedo Uras
de = 1.100 kilogramos.
Solucin:
Queremos un tamao de muestra n, dado que = 0.01 (99% de nivel de confianza)
de manera que, z/2 = z0.01/2 = 2.575 (valor constante de la tabla de la distribucin
normal con 99% nivel de confianza). Adems, E = 0.250, = 1.100. As, usando la
frmula (12-5) nos da:
n = (z/2 / E)2
= [(2.575)(1.100) / (0.250)]2
= 128.37
129
En conclusin, debemos de obtener una muestra, de cuando menos 129 casas
domsticas seleccionadas aleatoriamente (que estn descartando el plstico). Con
semejante muestra, estaremos confiados en un 99% de que el promedio muestral
X estar dentro de 0.250 kilos de .
tener una confianza del 95% de que el error, al estimar la diferencia entre los
promedios de las dos frmulas diferentes, sea menor que 1?
Solucin:
Aqu, usamos la frmula (12-7) para calcular el tamao de la muestra de dos
poblaciones, es decir,
n = (z/2 / E)2 (21 + 22)
Donde:
z/2 = z0.05/2 = z.025 = 1.97, E = 1, 21 = 1.5, 22 = 1.2
Sustituyendo estos valores en la frmula de arriba da:
n = (1.95 / 1)2 (1.5 + 1.2)
= 10.27 11
Por lo tanto, el tamao de la muestra para las poblaciones 1 y 2 es:
n = n1 = n2 = 11
12-8
Dr. Hctor Quevedo Uras
Ejercicios Captulo 12
12.1. Se sabe que la duracin, en horas, de un foco de 75 watts tiene una
distribucin, aproximadamente normal, con una desviacin estndar de 25 horas.
Supngase que se desea una confianza del 95% en que el error en la estimacin de
la duracin promedio sea menor que 5 horas. Qu tamao de muestra debe
usarse? ( 97)
12.2. Hacer el mismo problema que el anterior, pero ahora usando una confianza
de 99% y un error E = 1 y comparar los resultados.
12.3. Un ingeniero automotriz desea determinar el tiempo promedio que tardara
un mecnico en girar las llantas de un auto. Este ingeniero quiere estimar, con una
confianza de 95%, que el promedio de su muestra es imprecisa en cuando ms 0.50
minutos. Si sabe de estudios pilotos anteriores que la desviacin estndar es de =
1.6 minutos, qu tan grande deber ser la muestra que debe de seleccionar,
aleatoriamente? Sugerencia: Usar la frmula n = (z/2 /E)2 (39.3 40 mecnicos)
12.4. El director de cierta universidad desea usar el promedio de una muestra
aleatoria para estimar el monto promedio de tiempo que se les lleva a los
estudiantes para ir de un saln a otro y tomar sus clases sin llegar tarde. Para esto
desea afirmar con 99% de confianza que el error es cuando ms de 0.25 minutos.
Experiencias anteriores estiman una desviacin estndar de = 1.40 minutos.
Siendo as, qu tan grande deber ser la muestra que se deba tomar?
12.5. La Environmental Protection Agency (EPA) de los Estados Unidos desea
conducir una prueba de millaje de cierto modelo de un auto importado. El
ingeniero estadstico de la EPA desea estimar el promedio , de millas por galn
de combustible usado por este modelo, con 95% de nivel de confianza. Asumiendo
12-9
Dr. Hctor Quevedo Uras
que = 2.5 millas por galn, qu tamao de muestra (nmero de autos de este
modelo) deber tomar para conducir esta prueba? (n = 25)
12.6. Considerar el ejemplo 12.1 de la gasolina oxigenada, para la estimacin del
tamao de las muestras para las poblaciones uno y dos. Siendo as, estimar los
tamaos de las muestras apropiados, si queremos una confianza de 99% y el error
de la estimacin de las diferencias entre los promedios sea menor que 4.
12-10
APENDICE A. LISTA DE TABLAS
Apndice A-1
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-2
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-3
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-4
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-5
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-6
Tabla 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-7
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-8
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-9
TABLA 1. Probabilidades binomiales acumuladas
Apndice A-10
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-11
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-12
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-13
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-14
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-15
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-16
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-17
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-18
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-19
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-20
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-21
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-22
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-23
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-24
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-25
TABLA 2. Probabilidades acumuladas de Poisson.
c
F(c) = P(X c) = x e- / x!
x=0
Fuente: Morris Hamburg. Statistical Analysis for Decision Making. Harcourt Brace
Javanovich, Inc. (1991).
Apndice A-26
TABLA 2. Probabilidades acumuladas de Poisson (Continuacin)
Apndice A-27
TABLA 2. Probabilidades acumuladas de Poisson (Continuacin)
Apndice A-28
TABLA 2. Probabilidades acumuladas de Poisson (Continuacin)
Apndice A-29
TABLA 3. reas bajo la curva normal
Apndice A-30
TABLA 3. reas bajo la curva normal (Continuacin)
Apndice A-31
TABLA 3. reas bajo la curva normal (Continuacin)
Apndice A-32
TABLA 3. reas bajo la curva normal. (Continuacin)
Apndice A-33
TABLA 3. reas bajo la curva normal. (Continuacin)
Apndice A-34
TABLA 4. Puntos porcentuales de t(;) de la distribucin de t de Estudiante.
____________________________________________________________________
Fuente: Dunn, O. J. y Virginia A. Clark. Applied Statistics: Analysis of Variance and
Regression. John Wiley and Sons, Inc., New York (1974).
Apndice A-35
TABLA 4. Puntos porcentuales de t(;) de la distribucin de t de
Estudiante (Continuacin).
________________________________________________
Apndice A-36
TABLA 5. Distribucin de JI cuadrada (2).
Apndice A-37
Tabla 7. Valores crticos para la distribucin F(P)F Fo)
____________________________________________________________
Fuente: J. L. Devore. Probabilidad y Estadstica para Ingeniera y Ciencias.
Thomson Learning (2001).
Apndice A-38
TABLA 7. Valores crticos para la distribucin F (P(F Fo)
(Continuacin).
_______________________________________________________________
Apndice A-39
TABLA 7. Valores crticos para la distribucin F (P(F Fo) (Continuacin).
_________________________________________________________________
Apndice A-40
TABLA 7. Valores crticos para la distrtibucin F (P(F Fo) Continuacin).
________________________________________________________________
Apndice A-41
TABLA 7. Valores crticos para la distribucin F (P(F Fo) (Continuacin).
_____________________________________________________________________
Apndice A-42
x
Apndice A-43
TABLA 8. Puntos porcentuales de la distribucin de r10.
________________________________________________________
Fuente: Dunn, O. J. y Virginia A. Clark. Applied Statistics: Analysis of
Variance and Regression. John Wiley and Sons, Inc. New York (1974)
Apndice A-44
Apndice B
Bibliografa
Freund, J.E. Statistics. A First Course. Second Edition. Prentice Hall, Inc.
Englewood Cliffs, New Jersey (1976).
Keller, G., Brian Warrock, Henry Bartel. Statistics for Management and
Economics: a Systematic Approach. Second Edition. Wardsworth Publishing
Company, Belmont, California (1990).
Papel de grfica
Apndice C
Papel de escala semilogartmica
Papel de grfica de escala logartmica completa.
Papel de grfica logartmico de 2x2 ciclos
Papel de grfica de escala aritmtica
Papel de grafica de frecuencia relativa acumulada en funcin de la
variable aleatoria X
Apndice D
ndice
Mediana, 1-6
Medidas de tendencia central, 1-4
Moda, 1-7
Modelo de regresin cuadrtico con 2 y 3 variables independientes, con y sin interaccin, 9-24
Modelo de regresin mltiple generalizado, 8-33
Modelo de segundo orden con mas de dos variables independientes con interaccin, 9-5
Modelos de regresin mltiple con mas de dos variables regresoras, 8-34
Modelos de regresin no lineales y de regresin logstica, 9-24, 9-25
Multicolinealidad, diagnstico de, 8-17, 8-58, 9-21, 9-31, 9-32, 9-33
Niveles de significancia, 5-33, 5-38, 5-40, 4-49, 5-50, 5-55, 9-5
Niveles de confianza. Ver niveles de significancia
Rango, 1-13
Regla aditiva para eventos mutuos excluyentes y no mutuos excluyentes, 2-40
Regla de multiplicacin mas general, 2-22
Regla de multiplicacin para eventos dependientes e independientes, 2-37
Regla del producto para pares ordenados, 2-12
Regla factorial, 2-23
Regresin lineal mltiple, 8-1
Regresin mltiple usando el paquete Minitab, 8-54
Regresin polinomial, 9-31
modelos polinomiales de segundo orden, 9-2
modelos polinomiales de tercer orden, 9-3
Relacin entre la distribucin binomial y la distribucin de Poisson, 3-6
Relacin entre la distribucin binomial y la distribucin normal, 3-6
Relacin entre la distribucin hipergeomtrica y la distribucin binomial, 3-33
Unin, 2-9
Valor de la probabilidad p, 5-48, 5-50, 6-16, 6-17
metodologa para calcular el valor de p, 5-42