Documentos de Académico
Documentos de Profesional
Documentos de Cultura
9-1
El modelo de regresin tiene muchas aplicaciones en un gran nmero de
campos de la ingeniera y la ciencia, como en la rama de la mecnica de ingeniera
civil (y todas sus subdisciplinas, como la ingeniera ambiental), la qumica, la
ingeniera elctrica, la medicina, ingeniera informtica, la fsica, las ciencias
biolgicas, calibracin de sensores, hidrologa, ingeniera industrial, etc. Por ejemplo,
con la ingeniera civil de construccin, se puede aplicar las tcnicas de regresin
para caracterizar las diversas cualidades del hormign para predecir la resistencia de
la compresin de una determinada composicin de un hormign. Igualmente, en los
campos de la ingeniera ambiental, la regresin estadstica se puede aplicar a los usos
y tecnologas del agua, caractersticas del agua (densidad), en funcin de la
temperatura, estudios del calentamiento global que estn afectando todos los sistemas
socio-polticos, econmicos, ambientales, de salud, etc. En aplicaciones a la qumica,
la regresin se puede aplicar para estudiar las soluciones de gases (como el oxgeno o
el CO2), en funcin de la temperatura, equilibrio qumico, relaciones entre la demanda
bioqumica de oxigeno (DBO), DQO, y COT, relacin entre el DBO, NO 3-, NO2- y
NH3, etc. Mas adelante, en estudios de hidrologa, la regresin estadstica se aplica
para estructurar un modelo de regresin lineal mltiple, para calcular caudales o
gastos, esta variable se puede modelar en funcin de otras variables, como la
pendiente de la cuenca o del canal principal, la presin atmosfrica, la tasa de
evaporacin, los coeficientes de escorrenta, la temperatura, el rea y longitud de la
cuenca, la intensidad de la lluvia, permeabilidad del terreno, factores orogrficos y as
sucesivamente. Con relacin a las tecnologas del agua, digamos en estudios de
contaminacin de corrientes, existe una relacin entre la solubilidad del oxgeno en el
agua, que va en funcin de la temperatura, la salinidad, la turbulencia, la actividad
fotosinttica, la presin atmosfrica, las concentraciones de materia orgnica y
actividad bacterial. Todos estos factores son fuente potencial de ruido experimental
que puede degradar la calidad de la variable de respuesta.
Por otra parte, Goodale et al. (1998) discuten la aplicacin de modelos
polinomiales de ecosistemas para CO2 y ciclado de agua, en funcin de las
precipitaciones mensuales, temperaturas y radiacin solar. Tambin, Hanavis et al.
(2010) discuten mtodos alternativos a los mtodos tradicionales de frecuencias de
inundaciones, que usan una sola distribucin y que tal vez no sean adecuados para
describir la variabilidad de las inundaciones observadas. Finalmente, es importante
recalcar que el calentamiento global (una parte muy importante de la ingeniera
ambiental) est distorsionando los patrones de precipitacin y, por lo tanto, debido a
este fenmeno (que no se vea antes de la era industrial) en tiempos modernos,
actualmente existe una relacin cercana entre la ingeniera ambiental y la hidrologa
(periodos de retorno y probabilidades de ocurrencia).
9-2
Regresin lineal simple. En regresin lineal simple se estudia la relacin de causa
y efecto entre una variable dependiente o de respuesta (Y) y una variable
independiente (X). Por ejemplo, usando la ecuacin de regresin podemos predecir
valores de Y, para un valor dado de X. Tambin, para efectos de estimacin se hacen
intervalos de confianza e intervalos de prediccin. Los componentes de esta
ecuacin de regresin lineal, con una sola variable independiente, asimismo llamado
modelo lineal de primer orden, son la variable explicativa, funcin de respuesta o
variable dependiente Y, y, la variable independiente X. El modelo de esta ecuacin,
que describe la relacin de la variable X con la variable Y, se llama la ecuacin de
regresin de Y sobre X y, la grfica de esta funcin, se llama la curva de regresin.
El modelo de regresin lineal poblacional que describe la relacin entre la
respuesta o variable dependiente Y, y la variable independiente o predictora X, es:
Y = o + 1x1 + i = 1, 2, ., n (1)
Donde:
Y = variable dependiente o de respuesta poblacional (tambin se usa la anotacin y
o Y)
o = coeficiente de regresin poblacional o intercepto en la ordenada
1 = pendiente de la ecuacin de regresin
x1 = variable independiente o regresora
= error aleatorio con promedio de 0 y varianza 2 constante. Este valor de es la
diferencia entre el valor terico de Y y el valor de Y calculado u observado. Las
condiciones de son de que este parmetro debe estar normalmente distribuido; sus
valores deben de ser independientes uno del otro y la varianza de es Var() = 2 y
n = nmero de (X,Y) pares de observaciones
Y = a + bx + e (1a)
Donde:
Y = variable dependiente o de respuesta de la muestra
a = coeficiente de la ecuacin muestral o intercepto en la ordenada
b = pendiente de la lnea
x = variable independiente, predictora o explicativa
e = error o residual de la muestra denotado por ei = (yi - Yi). Esta estadstica es la
estimadora del parmetro
9-3
Suposiciones requeridas por el modelo de regresin lineal (para evitar el ruido
experimental).
1. Linealidad. Debe haber una relacin lineal derecha entre los valores de Y y X.
Esta suposicin se evala fcilmente, por medio de analizar una grfica esparcida.
2. Varianza constante. La varianza de los residuos se asume que es constante para
todos los valores de X o sea que la varianza del error es 2 es constante. Esto es lo
que se llama homoscedasticidad. La suposicin de varianza constante se detecta por
medio de graficar los residuos versus la variable independiente. Si esta grfica
muestra un patrn rectangular, se asume que hay una varianza constante; es lo que
se denomina homoscedasticidad. No obstante, si la grfica de residuos muestra una
varianza no constante, es decir, en forma de arco, hay lo que se llama
heteroscedasticidad (que puede causar ruido), la cual debe corregirse ipso facto,
para que no degrade los resultados esperados. Esto se puede hacer haciendo
transformaciones de los ejes, como por ejemplo, transformaciones logartmicas del
eje Y.
3. Valores extrnsecos. Hay otras condiciones que deben corregirse para estar de
acuerdo con las suposiciones del modelo de regresin lineal y as evitar el ruido. Por
ejemplo, los valores extremos (outliers) pueden causar varianza no constante o falta
de normalidad, lo que puede causar ruido estadstico o ruido de fondo en las
aplicaciones de diseo de experimentos. Los valores extremos se pueden eliminar
considerando grficas de Y y X, as como tambin graficando los residuos versus
valores de X.
4. Normalidad. La suposicin de normalidad de los datos debe de acatarse. Hay
varias expectativas de revisar por esto. Por ejemplo, haciendo grficas de
probabilidad, estadsticas descriptivas, aplicando la regla de 68-95-99.7, prueba de
Anderson-Darling, prueba de Kolmogprov-Smirnov, prueba de Shapiro y Wilks. etc.
Aqu es redundante afirmar que la falta de normalidad es una fuente importante de
ruido de fondo.
5. Independencia. Los residuos no deben estar correlacionados uno con el otro, lo
que implica que los valores de Y tampoco deben estar correlacionados; debe haber
independencia. De no existir independencia, es decir cuando hay correlacin entre
las variables, esta condicin puede ocasionar ruido de fondo, lo que puede afectar
la calidad del sistema que se desea optimizar.
9-7
hiptesis alternativa de HA: i 0, y, por lo tanto, menos credibilidad tendr la
hiptesis nula. El rango del valor de p est entre cero y uno y entre ms se aproxime
a cero (aunque matemticamente hablando el valor de p no puede ser cero ni uno,
porque?), ms confiabilidad habr en los datos. En forma anloga, entre ms se
aproxime el valor de p a uno, menos confiabilidad tendrn los datos, lo cual indica
que el proceso ha sido grandemente afectado por ruido de fondo causado por mucha
variacin y, consecuentemente, de error experimental.
Y = a n + b X
XY = a X + b X
Donde:
Pendiente = b = [n XY (X)(Y)] / [n X 2 (X)2]
= xy / x2
Donde:
xy y x2 se dan por las ecuaciones (3) y (3a) de abajo.
Y y X son las medias de las variables aleatorias X e Y.
9-10
xy = Sxy = XY XY / n (3a)
y2 = Syy = Y 2 (Y)2 / n (3b)
Donde Sxx, Sxy y Syy son las formas abreviadas de x2, xy y y2, respectivamente
Nota. Es muy importante distinguir las diferencias entre el uso de las variables
minsculas y las maysculas en las ecuaciones de arriba.
SS a SSe
R = = 1 -
2
(4)
SS t SSt
= (xy) /x y
2 2 2
(4a)
Donde: SSa es la suma de los cuadrados de los tratamientos, SSt es la suma de los
cuadrados del total y SSe es la suma de los cuadrados del error. Todas estas
funciones, ya se definieron en el captulo de anlisis de varianza, es decir, en el
formato de la tabla de ANOVA. Adems, xy, x2 y y2, ya se definieron por las
funciones (3) (3b) descritas anteriormente. Aqu, sin embargo, debido a que, 0
9-11
SSe SSt, por lo tanto, el rango de este coeficiente de determinacin R 2 es 0 R2
1.
En forma anloga, tambin hay el llamado coeficiente R2 de determinacin
ajustada (R2ajustado). Esta es una versin ajustada de R2, la cual muchos expertos en
estadstica usan para remover la variacin debida a un tamao de muestra pequeo.
Este coeficiente se define como:
Donde:
R2 ajustado ya definido anteriormente
n es el tamao de la muestra
R2 ya definido anteriormente
Clculos para determinar el error estndar estimado se, que emula al error
estndar poblacional . Recordando que, de las secciones del captulo de ANOVA,
SSe ya se haba definido como la suma de los cuadrados del error, es decir:
a n
SS e
s e =
2
(5)
n2
Donde:
se es el error estndar estimado o error estndar de la estimacin
SSe es la suma mnima de los cuadrados del error
(n 2) representa en nmero de grados de libertad alrededor de la lnea de regresin
ajustada. Aqu, el divisor (n 2) se usa, porque 2 grados de libertad se pierden en
calcular los coeficientes de regresin, es decir, el intercepto o y la pendiente 1.
Como se asent antes, aqu el valor del error estndar estimado, tambin se puede
usar como diagnstico para identificar la presencia de ruido. Valores cercanos a cero
9-12
abanderan poco ruido experimental, pero lo contrario tambin es correcto.
Por otro lado, Keller et al. (1990), discuten un mtodo corto para calcular la
suma de los cuadrados del error, SSe. Este mtodo corto se hace usando los
estadsticos de resumen dadas como, x2 = X2 (X)2/n, es decir Sxx, xy = XY
XY/n, esto es, Sxy; y y2 = Y 2 (Y)2/n, es decir, Syy. De manera que, cuadrando
xy se puede usar el mtodo corto para calcular SSe, v. g.:
(a) (b)
Correlacin positiva perfecta entre X e Y Grfica donde no hay correlacin entre X e Y
6 6
5 5
4 4
Y
3 3
2 2
1 1
1 2 3 4 5 6 7 1 2 3 4 5 6 7
X X
(c) (d)
9-13
Grfica donde no hay correlacin entre Y vs X
Grfica mostrando una correlacin perfecta negativa
6
6
5
5
4
4
Y
3
Y.
3
2
2
1
1
0
1.5 2.0 2.5 3.0 3.5 4.0 1 2 3 4 5 6 7
X.. X
(e) (f)
Grfica de Y vs X para una correlacin perfecta cuadrtica Grfica de Y vs X para una correlacin perfecta cuadrtica inversa
20 4
2
15
1
0
10
Y
y
-1
-2
5
-3
-4
0
-5
-5.0 -2.5 0.0 2.5 5.0 -5 -4 -3 -2 -1 0 1 2 3 4
x X
(g)
Grfica de Y vs X donde no hay ninguna correlacin.
7
4
Y
1 2 3 4 5 6 7
X
Por ejemplo, de acuerdo a las grficas de arriba, la Figura 2. (a) exhibe una
correlacin directa. Esta correlacin consiste en el incremento de la variable Y, la
cual es acompaada por el incremento de la variable X (correlacin positiva
perfecta), aqu el valor de R = +1.00. Adems, la Figura 2 (b) muestra una
correlacin positiva muy pobre o nula, aqu el valor de R es muy bajo. Otros, la
Figura 9.2(c) muestra una correlacin consiste en el decremento de la variable Y la
cual es acompaada por el decremento de la variable X (correlacin negativa
perfecta), aqu el valor de R = -1.00. Tambin la Figura 2(d) muestra una correlacin
negativa muy pobre, aqu el valor de R es muy bajo. Finalmente, la Figura 9.2(g) da
una correlacin no lineal. Aqu no hay ninguna asociacin, entre las dos variables.
Presin Densidad
(atm) (g/L)
1.000 2.3074
0.666 1.5263 La grfica representando estos datos se da en la figura
0.500 1.1401 de abajo.
0.333 0.7571
0.250 0.5660
2.0 2.0
Densidad (g/ L)
1.5 1.5
1.0 1.0
0.5 0.5
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Presion (atm)
9-15
Tabla 1. Tabla de ANOVA la cual requiere del llenado de los faltantes.
Tabla de ANOVA
Fuente de variacin MS Valor de p
g.l. SS Fcalc. Ftab.
Debido a la Reg. 1.916800
Residual 3 0.0000125
Total 4 1.9169
9-16
Para la validacin del modelo de regresin seleccionado, se usan las ecuaciones para
calcular R2 y el error estndar estimado, s. Pero primeramente se procede a llenar los
faltantes de la tabla de ANOVA de abajo.
Tabla de ANOVA
Ahora, usando las ecuaciones de abajo con SSa igual a 1.9168 y SSt igual a 1.9169 y
sustituyendo da:
SSa
R = = 1.9168/1.9169 = 0.9999 ~ 100%
2
SSt
se = [SSe / (n 2)]0.5 = [0.000039 / (5 2)]0.5 = 0.0036
(2) Para este inciso se requiere establecer la ecuacin de regresin, pero en esta
ocasin por medio de usar la grfica de la Figura 9.7. Para tales fines se pide usar la
frmula de la pendiente = (y2 y1)/(x2 x1) y de la ecuacin punto-intercepto dada
como (y y1) = m(x x1).
Sugerencia: usar las coordenadas (0.5, 1.1401) y (0.666, 1.5263) o cualquier otras
coordenadas de la grfica de arriba.
Solucin:
Analysis of Variance
Source DF SS MS F P
Regression 1 1.9168 1.9168 152981.54 0.000
Residual Error 3 0.0000 0.0000
Total 4 1.9169
Nota: Los resultados usando los tres mtodos no son absolutamente idnticos debido a los
redondeos aritmticos.
Tabla 2. Tabla mostrando los datos de los levantamientos terrestres y areos de este
problema.
Levantamiento Levantamiento
terrestre (m) areo (m)
744.0 732.9
789.5 804.9
749.7 760.5
701.5 712.3
689.2 696.0
800.5 812.8
891.2 902.7
812.8 820.0
780.6 793.6
710.5 720.2
870.0 896.0
829.4 845.1
808.7 820.3
781.7 796.1
868.7 870.0
920.0 920.1
780.7 790.2
649.6 660.0
732.1 741.2
770.4 781.2
733.7 745.6
620.0 633.4
9-19
utilidad usando enfoques objetivistas y subjetivistas.
(c) Con la ecuacin de regresin predecir el levantamiento terrestre, cuando el
levantamiento areo es de 820 metros.
(d) Al juzgar por los resultados, cree usted que no existan errores experimentales y
que los resultados sean muy confiables?
Solucin:
Analysis of Variance
Source DF SS MS F P
Regression 1 119656 119656 2391.26 0.000
Residual Error 20 1001 50
Total 21 120657
90
1.5
Percent
50 0.0
10 -1.5
1 -3.0
-3.0 -1.5 0.0 1.5 3.0 600 700 800 900
Standardized Residual Fitted Value
7.5 1.5
Frequency
5.0 0.0
2.5 -1.5
0.0 -3.0
-2.4 -1.2 0.0 1.2 2.4 2 4 6 8 10 12 14 16 18 20 22
Standardized Residual Observation Order
9-20
Figura 2. Grafica de residuos de levantamientos terrestres y areos.
(d) Tal parece que si existe un poco de ruido experimental, porque el valor de la
estadstica PRESS = 1271.63 es muy alto. Adems, analizando la grfica de los
residuos, se observa que en la grfica de probabilidad normal (grafica superior
izquierda) los puntos estn muy dispersos con respecto a la lnea de regresin.
Conjuntamente, en la grfica de los valores ajustados (grafica superior derecha) no
existe el mismo nmero de residuos positivos y negativos. Tomando en
consideracin todos estos argumentos, si es factible existan errores experimentales
que puedan comprometer los resultados.
Ejemplo 2. Hacer el mismo ejemplo anterior, pero ahora identificando las fuentes
de ruido experimental y controlando esos factores. Luego, hacer lo siguiente:
(a) Establecer el modelo de regresin y validar su utilidad por medio de
diagnsticos objetivistas y subjetivistas.
(b) Comparar los resultados con aquellos obtenidos en el Ejemplo 9.1. Hubo
cambios significativos?.
(c) Usar la ecuacin de regresin y calcular el levantamiento areo cuando X = es
de 850 metros.
La tabla de abajo muestra los valores de los levantamientos con el error
experimental ya controlado.
Tabla 2b. Tabla mostrando los datos de los levantamientos terrestres y areos
estimados expresados en metros (m), despus de controlar el error experimental.
Levantamiento Levantamiento
terrestre (m) areo (m)
720.2 732.9
791.0 804.9
749.7 760.5
701.5 716.0
688.0 706.0
800.5 812.8
886.0 896.0
810.0 820.0
775.0 788.0
9-21
710.5 726.0
860.0 870.0
829.4 840.0
812.0 826.0
783.0 796.1
840.0 850.0
768.0 780.0
658.0 677.0
725.0 741.2
762.0 774.0
739.0 750.0
675.0 692.0
634.0 650.0
Solucin:
(a) La tabla de abajo muestra los resultados de la evaluacin objetivista con ruido
controlado.
Analysis of Variance
Source DF SS MS F P
Regression 1 93579 93579 32471.68 0.000
Residual Error 20 58 3
Total 21 93637
9-22
Durbin-Watson statistic = 2.19493
Standardized Residual
90 1
Percent
50 0
10 -1
1 -2
-2 -1 0 1 2 600 700 800 900
Standardized Residual Fitted Value
Standardized Residual
3 1
Frequency
2 0
1 -1
0 -2
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2 4 6 8 10 12 14 16 18 20 22
Standardized Residual Observation Order
(b) Al comparar los resultados con aquellos obtenidos en el Ejemplo 9.1, si hubo
cambios significativos. Por ejemplo, en los diagnsticos objetivistas, el coeficiente
de determinacin R2, subi de 99.2 a 99.9 cuando se control el ruido. Mas
importante todava, el valor de PRESS bajo muy significativamente a 68.92 de 1277
(con ruido). Adems, el error cuadratica medio baj a 3 (sin ruido) de 50 (con
ruido). No obstante, el histograma est un poco sesgado.
(d) Usando la ecuacin de regresin con ruido y la ecuacin de regresin con el
ruido controlado, calcular el porcentaje de error cuando el levantamiento areo es de
726 metros. Tambin la grfica de residuos de levantamientos terrestres y areos,
con el ruido controlado, mejor mucho con respecto a aquel con ruido experimental.
Tambin el error cuadrtico medio de la tabla de ANOVA baj de 50 a 3 (sin ruido)
y as sucesivamente.
(d) Usando la ecuacin de regresin con el ruido controlado, y sustituyendo el valor
de 726 metros da: Levantamiento terrestre estimado = - 39.5 + 1.03 (850) = 836
metros.
9-23
La representacin integrada es ln[A] ln[A]o = -kt. Esta ecuacin puede arreglarse
en la forma de una ecuacin lineal, es decir, como y = mx + b, esto es, ln[A] = -kt +
ln[A]0, donde la pendiente es mx = -kt y el intercepto es b = ln[A]0. Usando las
leyes de los logaritmos se puede expresar como ln([A]t / [A]0) = -kt donde ([A]t es la
concentracin a un tiempo t y [A]0 es la concentracin inicial o total. Para describir
si la tasa de la reaccin es de primer orden, la grfica del logaritmo de la
concentracin versus tiempo da una lnea recta.
Siendo as, se sabe que la sucrosa (C12H22O11) reacciona en soluciones cidas
diluidas con agua para formar glucosa y fructosa siguiendo una ecuacin de primer
orden. La ecuacin de esta reaccin es: C12H22O11(ac) + H2O(l) 2C6H12O6(ac).
Hacer lo siguiente:
(a) Aplicar un diseo experimental y citar la variable de entrada y de salida y la
posible fuente de ruido experimental, si es que as existiese.
(b) Hacer una grfica con el logaritmo de las concentraciones de sucrosa vs tiempo
usando la tabla de arriba, para poder atestiguar de que esta reaccin qumica siga
estrictamente a una lnea recta, es decir, a una reaccin de primer orden. Hacer esto,
ajustando una lnea de regresin lineal.
(c) Si la grfica de los datos siguiesen estrictamente una lnea recta, que es lo que se
esperara, porque la reaccin qumica de la sucrosa vs tiempo es una reaccin de
primer orden, entonces, esto comprobara que las tcnicas de laboratorio usadas en
la elaboracin de este experimento fueron ptimas.
(d) Despus de lo anterior, establecer la ecuacin de regresin para fines de
prediccin, con los datos de la tabla de arriba y luego validar la utilidad del modelo
de regresin, a travs de diagnsticos objetivistas y subjetivistas.
(e) Si por alguna razn los datos no estuvieran en concordancia con la grfica de la
transformacin logartmica y de los resultados estadsticos, decir si as ocurri.
9-24
(f) Hacer una grfica de series de tiempo y calcular las mediciones de precisin
MAPE, MAD y MSD para estimar el porcentaje de error que el modelo de
prediccin pudiera tener. El tpico de series de tiempo se explicara detalladamente
en el Captulo 10 de series de tiempo.
Solucin:
-0.50 -0.50
-0.55 -0.55
Log concentracion sucrosa
-0.60 -0.60
-0.65 -0.65
-0.70 -0.70
-0.75 -0.75
-0.80 -0.80
-0.85 -0.85
0 50 100 150 200
Tiempo (min.)
Analysis of Variance
Source DF SS MS F P
Regression 1 0.070327 0.070327 12493.90 0.000
Residual Error 3 0.000017 0.000006
Total 4 0.070343
90 1
Percent
50 0
10
-1
1
-3.0 -1.5 0.0 1.5 3.0 -0.8 -0.7 -0.6 -0.5
Standardized Residual Fitted Value
1
0.75
Frequency
0.50 0
0.25
-1
0.00
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5
Standardized Residual Observation Order
9-26
Grafica de series de tiempo de sucrosa vs tiempo.
Linear Trend Model
Yt = 0.36000 - 0.042400* t
0.325 Variable
Actual
0.300 Fits
Concentracion sucrosa
Accuracy Measures
0.275 MAPE 0.941910
MAD 0.002080
0.250 MSD 0.000007
0.225
0.200
0.175
0.150
1 2 3 4 5
Tiempo (min.)
Figura 7a. Grafica de series de tiempo las mediciones de precisin MAPE, MAD y
MSD. El valor de MAPE = 0.9419 dice que la prediccin del modelo de regresin
pudiera tener un 0.9419 de error.
Definicin del error estndar estimado s. Para anlisis de regresin lineal mltiple,
el error estndar estimado se define como:
9-29
Eigenvalues est cercano a cero, esto anuncia colinealidad. En este rengln, para
explicar el concepto de los factores de varianza inflada, es menester definir,
primeramente, algunos trminos como los siguientes:
9-32
incorrectos. Esto ocurre as, porque en el caso del cuerpo humano, no se est razonando que
todos los rganos o sistemas de este microconjunto, son partes dependientes de todo el
organismo, como unidad independiente (Ver Paztor 1998).
Y = bo + b1 x1 + b2 x2 + e (13a)
9-33
Donde Y es la variable dependiente o de respuesta; x1 y x2 son las dos variables
independientes o regresoras; bo, b1, b2 son los coeficientes de regresin y, e es el
residuo o error aleatorio estadstico.
y = o + 1 x1 + 2 x2 + 3( x1 x2) + (14)
Ejemplo.. Este es un ejercicio relacionado con una variable de respuesta (Y) y dos
variables independientes (X1, X2), para que el lector se familiarice con aplicaciones
de modelos de regresin lineal mltiple. La tabla de abajo da la informacin
pertinente para este ejercicio.
Y X1 X2
1.19824 2.92024 13.000
1.33362 3.32258 13.80
1.39536 3.42011 14.00
1.5000 3.45669 14.20
1.5900 3.56032 14.60
1.7000 4.0000 14.90
1.9000 4.3000 15.40
1.85528 4.12725 15.30
2.25000 4.49301 16.00
2.43727 4.79171 16.200
3.1000 5.16662 16.50
3.40725 5.59943 16.90
9-35
Usando el programa Minitab hacer lo siguiente:
(a) Hacer una grfica sobrepuesta que vaya en funcin de la variable de respuesta y
las variables regresoras.
(b) Describir el modelo poblacional, que represente a estos datos.
(c) Estructurar el modelo de regresin, que estime al modelo poblacional, sin
interaccin.
(d) Validar la utilidad del modelo en (c) usando criterios objetivistas y subjetivistas
(e) Incluir el factor de interaccin en el modelo de regresin. Es factible su
inclusin que pudiera aminorar el ruido y as para mejorar los resultados?
(f) Aplicar un diseo experimental citando la variable de entrada y de salida y la
posible fuente de ruido experimental. Discutir todos los resultados obtenidos. (El
estudiante lo deber hacer)
Solucin:
Grfica de mediciones
0 2 4 6 8 10 12 14 16
5.0 5.0 Variable
X1
X2
4.5 4.5
Variable de respuesta Y
4.0 4.0
3.5 3.5
3.0 3.0
2.5 2.5
2.0 2.0
0 2 4 6 8 10 12 14 16
9-36
s = 0.0916360 R-Sq = 99.0% R-Sq(adj) = 98.7% PRESS = 0.124481 R-Sq(pred) = 98.28%
Analysis of Variance
Source DF SS MS F P
Regression 2 7.1575 3.5787 426.18 0.000
Residual Error 9 0.0756 0.0084
Total 11 7.2331
Grfica de residuales
Grfica de probabilidad normal Versus Fits
99
Residuo estandarizado
1
90
Porcentaje
0
50
-1
10
1 -2
-2 -1 0 1 2 3.0 3.6 4.2 4.8 5.4
Residual estandarizado Valores ajustados
Residuo estandarizado
1
Frecuencia
2
0
1 -1
0 -2
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7 8 9 10 11 12
Residual estandarizado Orden de la Observacin
9-37
Figura. Impresin esquemtica de la hoja del Minitab mostrando los datos
originales y los clculos de la interaccin.
9-38
encontrar el mejor modelo candidato de regresin que represente los datos.
Y X1 X2
0.19824 1.92024 12.0
0.33362 2.32260 12.8
0.39536 2.42011 13.0
0.50000 2.45669 13.2
0.48796 2.56032 14.0
1.20000 3.80000 13.4
0.70348 2.93218 16.0
0.85528 3.12725 14.3
1.97000 3.49301 13.7
1.43727 3.79171 13.9
2.90000 4.16662 13.8
2.40725 4.59943 14.1
Hacer lo siguiente:
(a) Usando los datos originales de la tabla de arriba, estructurar un modelo de
regresin lineal mltiple
(b) Validar la utilidad del modelo en (a) usando criterios objetivistas y subjetivistas
(c) Hacer una transformacin logartmica (base 10), y con los datos transformados y
estructurar un modelo de regresin lineal mltiple
(d) Evaluar la calidad del modelo de regresin con los datos transformados en (c).
(e) Hacer comentarios acerca de los resultados de los dos modelos. Hubo alguna
una mejora significante al transformar los datos, es decir, de control del ruido
experimental?
Solucin:
(a) (b) La estructuracin del modelo se da abajo con sus respectivos criterios
evaluadores.
9-39
Tabla. Impreso mostrando los resultados.
Regression Analysis: Y versus X1, X2
The regression equation is: Y = - 0.56 + 1.02 X1 - 0.111 X2
Analysis of Variance
Source DF SS MS F P
Regression 2 7.2963 3.6482 23.81 0.000
Residual Error 9 1.3790 0.1532
Total 11 8.6753
2
90
1
Percent
50 0
10 -1
1 -2
-2 -1 0 1 2 0.0 0.6 1.2 1.8 2.4
Standardized Residual Fitted Value
3 1
Frequency
2 0
1 -1
0 -2
-2 -1 0 1 2 1 2 3 4 5 6 7 8 9 10 11 12
Standardized Residual Observation Order
(c), (d). La tabla de abajo muestra los resultados despus de hacer las
transformaciones logartmicas.
9-40
S = 0.113316 R-Sq = 92.2% R-Sq(adj) = 90.5% PRESS = 0.223182 R-Sq(pred) =
84.98%
Analysis of Variance
Source DF SS MS F P
Regression 2 1.37065 0.68532 53.37 0.000
Residual Error 9 0.11557 0.01284
Total 11 1.48621
Standardized Residual
2
90
1
Percent
50 0
10 -1
1 -2
-2 -1 0 1 2 -0.50 -0.25 0.00 0.25 0.50
Standardized Residual Fitted Value
1
Frequency
2
0
1
-1
0 -2
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 1 2 3 4 5 6 7 8 9 10 11 12
Standardized Residual Observation Order
(e) Se hacen los siguientes comentarios: Al hacer las transformaciones de los datos,
el valor del error estndar estimado s baj de 0.3914 a 0.1133. El valor de R2 subi
a 92.2% de 85.7%. El valor de PRESS baj por una orden de magnitud, es decir, de
2.19 a 0.2231. El valor de F subi a 53.37 de 23.81. En cuanto a los diagnsticos
evaluadores de los residuales, se observa que la grfica de probabilidad normal ms
aceptable con las transformaciones, que sin stas. Tambin ser observa que el error
del MS en la tabla de anlisis de varianza en la baj de 0.1532 hasta 0.0128 en la
tabla de anlisis de varianza. Finalmente, el valor de la estadstica Durbin-Watson
bajo a 2.1354 con respecto a 2.91 de los datos originales. Todas estas mejoras
ocurrieron al hacer transformaciones logartmicas que mitigaron el ruido
experimental.
(a) Identificar la variable dependiente (Y) y las variables independientes (X1, X2, X3).
(b) Estimar un modelo de regresin para estas cuencas hidrolgicas, ajustando el
modelo de regresin ms idneo. Valorar su utilidad a travs de diagnsticos
objetivistas y de grficos de residuos. Sugerencia: usar el Minitab.
(c) Existen indicios de errores experimentales serios?
(d) Cree usted que el calentamiento global, mismo que est distorsionando los
patrones de lluvias (por eventos extremos, como muchas inundaciones y/o muchas
sequas) est afectando los flujos promedio anuales y la profundidad promedio anual
mxima de las vertientes hidrolgicas?
Solucin:
9-42
S = 0.100969 R-Sq = 99.9% R-Sq(adj) = 99.9% PRESS = 0.335029 R-Sq(pred) =
99.26%
Analysis of Variance
Source DF SS MS F P
Regression 3 44.984 14.995 1470.83 0.000
Residual Error 3 0.031 0.010
Total 6 45.014
Standardized Residual
90 1
Percent
50 0
10 -1
1
-3.0 -1.5 0.0 1.5 3.0 2 4 6 8
Standardized Residual Fitted Value
1
1.5
Frequency
1.0 0
0.5 -1
0.0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7
Standardized Residual Observation Order
(c) Los valores de las varianzas infladas (VIF) estn un poco altos. De esta
perspectiva existe un poco de error experimental.
Analysis of Variance
Source DF SS MS F P
Regression 3 0.43826 0.14609 286.37 0.000
Residual Error 3 0.00153 0.00051
Total 6 0.43979
1
90
Percent
50 0
10 -1
1
-2 -1 0 1 2 0.4 0.6 0.8 1.0
Standardized Residual Fitted Value
1
1.5
Frequency
0
1.0
0.5 -1
0.0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7
Standardized Residual Observation Order
9-44
S = 0.100969, R2 = 99.9% , R2(adj) = 99.9%, PRESS = 0.335029, R2(pred) =
99.26%. Valor de error cuadrtico medio = 0.01. Estadstica Durbin-Watson statistic
= 1.79845. Promedio de los valores de VIF = 22.77
Con los valores transformados:
S = 0.0225862, R2 = 99.7%, R2(adj) = 99.3%, PRESS = 0.0106885 R2(pred) =
97.57%. Los valores de VIFs tambin bajaron. Valor de la estadstica Durbin-
Watson statistic = 1.96401 se aproxim ms al criterio de 2. Promedio de los
valores de VIF = 19.05
y = o + 1x + 2 x2 + + k xk + (16)
y = bo + b1x + b2 x2 + + bk xk + e (16)
Y = o + 1x + 2 x2 + (17)
9-45
El modelo polinomial estadstico que estima al modelo polinomial poblacional de
arriba es:
Donde:
y = variable dependiente o funcin de respuesta
bo = intercepto en la ordenada que representa la respuesta media de y, cuando x = 0
b1 = coeficiente de regresin de efecto lineal
b2 = coeficiente de efecto cuadrtico
x = variable independiente o regresora
e = error aleatorio o residuo
x x
Figura. En la grfica del lado izquierdo, b > 0 y la parbola se abre hacia arriba. En la
grfica del lado derecho, b < 0 y la parbola se abre hacia abajo.
9-46
Modelo cuadrtico con dos variables independientes con interaccin. El modelo
de regresin cuadrtico poblacional con dos variables regresoras es:
Donde:
y = variable dependiente o funcin de respuesta
bo = intercepto en la ordenada
b7, b8, b9 son los coeficientes del efecto de interaccin entre los pares de variables
x1x2, x1x3 y x2x3
e, ya definido anteriormente
Modelo polinomial poblacional de tercer orden (k = 3), o cbico con una variable
independiente.
y = o + 1 x + 2 x2 + 3 x3 + (22)
Y = bo + b1 x + b2 x2 + b3 x3 + e (22a)
Donde:
Y = variable dependiente
bo = intercepto en la ordenada
b1 = coeficiente de efecto lineal
b2 = coeficiente de efecto cuadrtico
b3 = coeficiente de efecto cbico.
e = error
9-48
y
Figura mostrando la grfica de una ecuacin cbica de la forma f(x) = 2x3 x2 5x.
Nota: Los modelos polinomiales de poderes ms altos que k = 3 deben de usarse con precaucin.
Esto se debe a que, la interpretacin de los coeficientes es difcil, y las interpolaciones pueden ser
peligrosas. Adems, cuando hablamos de modelos con valores de k = 4, o k = 5, el comportamiento
de semejantes modelos es extrao y de aplicaciones raras y, por lo tanto, no se discutirn aqu.
9-49
regresin mltiple, de acuerdo a la lgica del programa NCSS, sta dice que, si esta
funcin est cercana a 2, no hay autocorrelacin, pero si es muy diferente de 2,
entonces, si la hay. Similarmente, se pueden usar otros mtodos como Regresin por
Pasos o Todas las Regresiones Posibles, que seleccionan los modelos ptimos
basndose en los criterios arriba citados, es decir, agregando y/o eliminando las
variables independientes o de respuesta. Finalmente, todo esto se puede complementar
analizando, subjetivamente, los grficos de los residuos estandarizados o no
estandarizados, esto es, examinando la prueba de normalidad, residuos versus valores
ajustados, residuos versus los rdenes, etc. Por otro lado, tambin se puede usar lo
que se llama autocorrelacin espacial que esta relacionada con Geoestadistica clsica;
ejemplos de estas herramientas son los variogramas. Este tipo de autocorrelacin o
estadstica espacial se discutir mas adelante.
Dnde: SSa y SSt son las sumas de los cuadrados de los tratamientos y suma de los
cuadrados del total, respectivamente, y donde Syy = SSa + SSe, donde SSe = (yi
Yi)2 o sea la suma de los cuadrados del error
Donde, SSe = e2i es la suma de los cuadrados del error o residuo ya definido
anteriormente, n es el tamao de muestra y, k es el nmero de coeficientes i
probados. Un valor de se cercano a cero, indica un buen ajuste del modelo, pero sin ser
una medida absoluta de la utilidad del modelo, es decir, sin antes analizar todos los
dems diagnsticos objetivistas y subjetivistas. No obstante, un valor grande de s e
indica un modelo pobre que tiene que mejorarse. El programa Minitab reporta el error
9-50
estndar estimado como s.
Criterio Cp o criterio de Colin Mallow. Este diagnstico est relacionado con el
error cuadrtico medio de un valor ajustado. De acuerdo a una fuente de
informacin ciberntica (ver referencias bibliogrficas), uno de los problemas que
pueden ocurrir con el modelo de regresin es el problema de colinealidad. Esta
situacin comnmente ocurre cuando el investigador incluye muchas variables
independientes en el modelo de regresin, esperanzado a que la prediccin sea
mejor. Sin embargo, si no se es parsimonioso, en la inclusin de las variables
independientes, esto tendr efectos de correlaciones altas, las cuales no se pueden
estimar separadamente. Acordemente, cuando se incluyen muchas variables
regresoras cuyos coeficientes deben ser estimados, se dice que el modelo esta
sobre ajustado (que puede dar a ruido experimental). El peor de los casos ocurre
cuando el nmero de parmetros a ser estimados es ms grande que el nmero de
observaciones de tal manera que, algunos efectos no podrn ser estimados del todo.
De acuerdo a la informacin anterior, si P regresores se seleccionan de un juego de
valores K > P, la estadstica Cp se define como:
SSEp
Cp = - N + 2P (25)
s2
Donde:
N
SSEp = (Yi Ypi)2 es la suma de los cuadrados del error con P regresores
i=1
Anlisis grficos, para la evaluacin subjetiva del modelo de regresin. Para hacer
la evaluacin, subjetivamente, de la bondad de ajuste de los modelos polinomiales
usados, son semejantes a aqullos usados en la evaluacin de los modelos de regresin
lineal mltiple. Es decir, la grfica de normalidad, grfica de residuos versus valores
ajustados de Y para la prueba de independencia (la ms recomendada para anlisis de
regresin), valores ajustados vs. rdenes e histogramas de residuos, esto es, de los
residuales vs. la secuencia de las observaciones.
Por ejemplo, en cuanto a la grfica de normalidad, aqu todos los puntos deben
de formar una lnea recta o estar muy cercanos de la lnea de regresin ajustada.
Igualmente, con respecto a la grafica de residuos estandarizados versus valores
ajustados de Y, aqu, debe haber aleatoriedad de los residuos; no debe haber
tendencias crecientes o decrecientes. Adems, debe haber el mismo nmero de
residuos positivos y negativos. De no ser as, se violan las suposiciones del modelo;
situaciones que conllevaran a la presencia de ruido experimental Con respecto a la
grfica del histograma, es decir, de frecuencia vs. residuos estandarizados, las barras
deben de tener una forma de campana, para revisar por la simetra de los datos.
Finalmente, en cuanto a la grfica de residuos estandarizados vs. las rdenes de las
observaciones, nuevamente, aqu debe haber aleatoriedad, sin tendencia creciente o
decreciente, y debe haber el mismo nmero de residuos positivos y negativos.
Este es un estudio acerca de las caractersticas del agua relacionada con la densidad
(g/mL) del lquido (asumiendo que esta agua no contiene impurezas, como el agua
destilada), y la temperatura, en grados Celsius ( oC). El investigador principal
estadstico autor de este libro, contiende que la relacin entre la densidad del agua y
la temperatura se pueden modelar usando un modelo cuadrtico. La tabla de abajo
muestra la informacin requerida. Siendo as, hacer lo siguiente:
(a) Una grfica de diagrama esparcido para visualizar la configuracin de los datos.
Luego hacer la misma grfica ajustando una lnea de regresin cuadrtica.
(b) Estructurar el modelo de regresin que mejor ajuste los datos de las densidades
9-52
en funcin de las as temperaturas del agua (uno cuadrtico de acuerdo al autor de
este estudio).
(c) Validar la utilidad del modelo a travs de diagnsticos estadsticos (R 2, s,
PRESS, tabla de ANOVA) y de grficos de residuales estandarizados.
(d) Con el modelo de regresin seleccionado, confirmar que la densidad del agua es
de 1.0 g/mL, cuando la temperatura es de 4 oC.
Solucin:
9-53
Grafica de datos de densidad del agua vs temperaturas
0 5 10 15 20 25 30
1.000 1.000
0.999 0.999
0.997 0.997
0.996 0.996
0.995 0.995
0 5 10 15 20 25 30
Temperatura en grados Celsius
Analysis of Variance
Source DF SS MS F P
Regression 2 0.000051828 0.000025914 210644.24 0.000
Residual Error 24 0.000000003 0.000000000
Total 26 0.000051831
Standardized Residual
Percent 90 2
50
0
10
1 -2
-3.0 -1.5 0.0 1.5 3.0 0.996 0.997 0.998 0.999 1.000
Standardized Residual Fitted Value
Standardized Residual
2
6
Frequency
4
0
2
0 -2
-2 -1 0 1 2 3 2 4 6 8 10 12 14 16 18 20 22 24 26
Standardized Residual Observation Order
Y = o* + 1*(X X ) + 2* (X X )2 + (26)
Hacer lo siguiente:
(a) Obtener el modelo de regresin cuadrtico y evaluar su utilidad usando criterios
estadsticos objetivistas como R2, R2ajustado, error estndar de estimacin y PRESS y
complementar la evaluacin usando grficos subjetivos.
(b) Si los valores de los VIFs son mayores que 10, centrar los valores de X y generar
una nueva variable X prima. Luego, calcular una nueva ecuacin de regresin.
(c) Enseguida, comparar los valores de los coeficientes de cada una de las ecuaciones
de regresin obtenidas en (b) y (c). Se control el ruido experimental?
(d) Decir que fue lo que cambi y que fue lo que qued igual.
Solucin:
(a) La tabla impresa de abajo muestra los resultados del modelo de regresin
cuadrtico usando los valores originales.
Tabla. Tabla mostrando los impresos del modelo de regresin cuadrtico usando los
valores originales.
The regression equation is: y = 9.06 - 2.00 X + 0.241 (X) 2
9-56
Predictor Coef SE Coef T P VIF
Constant 9.05545 0.06959 130.13 0.000
X -1.99568 0.03601 -55.42 0.000 13.656
xsqr 0.240530 0.003852 62.45 0.000 13.656
Analysis of Variance
Source DF SS MS F P
Regression 2 32.906 16.453 2100.39 0.000
Residual Error 7 0.055 0.008
Total 9 32.961
90 1
Porcentaje
50 0
10 -1
1 -2
-2 -1 0 1 2 5.0 7.5 10.0
Residual estandarizado Valor ajustado
1
Frecuencia
2
0
1
-1
0 -2
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7 8 9 10
Residual estandarizado Orden de la observacin
(c) Debido a que la media de los valores de los VIFs son ms altos que el criterio de
10, se procede a restarle la media a los valores originales de Xi. El diagrama de
abajo muestra la tabla impresa del Minitab, con los valores de VIFs reducidos.
Tabla 14b. Resultados impresos usando los valores generados de X prima.
Regression Analysis:
The regression equation is
y = 4.95 + 0.169 (x - 4.5) + 0.241 (x - 4.5) 2
Analysis of Variance
Source DF SS MS F P
Regression 2 32.906 16.453 2100.39 0.000
9-57
Residual Error 7 0.055 0.008
Total 9 32.961
Aqu se nota que los valores de los VIFs bajaron considerablemente (color lila).
Esta situacin, desde luego, mitigo el ruido experimental.
(d) Las ecuaciones de regresin con los valores originales y los transformados se
dan como: y = 9.06 - 2.00 (X) + 0.241 (X)2
y = 4.95 + 0.169 (X - 4.5) + 0.241 (X - 4.5)2
(e) Lo que cambi, desde luego, fueron los valores de los VIFs y los coeficientes de
los dos modelos de regresin. Los valores de T y de p tambin cambiaron. Todo
mitigo el error experimental, por lo tanto, optimizando los resultados.
Ejercicios
9.1. Este es un ejemplo relacionado con la altura y la edad de una muestra aleatoria
de chiquillos. La tabla de abajo da la informacin pertinente a este problema.
2 30.0 7 44.0
3 32.5 8 47.2
4 35.3 9 50.0
5 38.0 10 52.7
6 41.0
Hacer lo siguiente:
(a) Identificar la variable independiente y la variable dependiente. Luego hacer una
grfica con los datos.
(b) Establecer la ecuacin de regresin para fines de prediccin. Luego evaluar la
utilidad del modelo a travs de diagnsticos objetivistas (R2, s, PRESS, error
cuadratico medio y valor de p en la tabla de ANOVA), y subjetivistas (Grficos de
residuos).
9-58
(c) Del punto de vista de diseos experimentales, identificar las fuentes potenciales
de ruido experimental, Cree usted que los resultados sean absolutamente
confiables?
Respuesta:
(a) La variable independiente es la altura y la dependiente la edad. La grafica se da abajo.
Grafica de las alturas en funcion de la edad.
1 2 3 4 5 6 7 8 9 10
55 55
50 50
45 45
Altura
40 40
35 35
30 30
1 2 3 4 5 6 7 8 9 10
Edad
260 260
240 240
1/ concentracion
220 220
200 200
180 180
160 160
140 140
120 120
100 100
9-59
(b) De acuerdo a la lgica de un diseo experimental, Cree usted que los resultados
de la ecuacin de regresin calculada en (a), sean autenticos?
Respuesta:
(a) 1/conc. = 99.8 + 0.543 (Tiempo, seg.)
(b) Deben ser asi, aunque no absolutamente. Porque?
9-60
(e) Usando el modelo de regresin ms idneo, calcular Y cuando X = 300.
9.4. Con la qumica del agua es bien sabido que la solubilidad de muchos gases va
en funcin de la temperatura. Esto dice que, a mayor temperatura, los gases como el
oxgeno, metano (CH4), bixido de carbono (CO2), etc., su solubilidad disminuir
(asumiendo que el agua no contenga impurezas). Lo contrario tambin es correcto,
porque a medida que disminuye la temperatura, la solubilidad de estos gases
aumenta. En este estudio se da una tabla con las concentraciones promedio de CO 2
en milimoles/litro (mM/L) en funcin de la temperatura en grados Celsius.
Tabla mostrando los datos de este ejercicio.
Solubilidad de CO2 Temperatura
(mM/L) (oC)
74.4405 0
70.1054 2
63.4340 5
59.1455 7
53.5170 10
50.4000 12
45.4630 15
42.5210 17
38.47470 20
35.87350 22
32.45970 25
Hacer lo siguiente:
(a) Una grfica de mM/L en funcin de la temperatura en oC. Mejorara la
representacin grfica con una transformacin logartmica?
(b) Es la reaccin de primer orden en la concentracin de la solubilidad?
(c) Estimar la ecuacin de regresin que mejor ajuste los datos. Evaluar la utilidad
del modelo a travs de diagnsticos objetivistas y de grficos de residuos.
(d) Usando la ecuacin de regresin, calcular la concentracin de CO2 a 3 oC.
(e) Existen problemas de ruido experimental que puedan comprometer los
resultados?
Respuesta:
(a) Las grficas son:
Scatterplot of Solubilidad vs Temp. Scatterplot of Ln Solubilidad vs Temp.
80 0 5 10 15 20 25
4.3 4.3
70 4.2 4.2
4.1 4.1
60
Solubilidad
Ln Solubilidad
4.0 4.0
3.9 3.9
50 3.8 3.8
3.7 3.7
40 3.6 3.6
3.5 3.5
30 3.4 3.4
0 5 10 15 20 25 0 5 10 15 20 25
Temp. Temp.
9-61
9.5. Este es un estudio problemtico relacionado con el rendimiento de combustible,
medido en millas por galn y la velocidad de los vehculos, medida en millas por
hora. En este rengln es bien sabido que existe una relacin directamente
proporcional entre la velocidad del vehculo de combustin interna y el rendimiento
del combustible. De esta manera, cuando los vehculos transitan a altas velocidades,
hay ms consumo de combustible, circunstancias que est distorsionando el clima,
por las emisiones de gases de invernadero inherentes de las emisiones vehiculares.
De manera que, para el establecimiento de modelos computacionales para fines de
prediccin es muy importante tomar en consideracin todos los factores que puedan
afectar la relacin rendimiento-velocidad y la generacin de contaminantes
atmosfricos. Algunos de estos factores son el tipo de vehculo, ya sea grande,
mediano o pequeo. Otros factores son la edad del vehculo, el manteamiento que se
le d, la carga que pueda llevar, la presin adecuada de los neumticos, la poca del
ao que se desee tomar en cuenta, el tipo de combustible, los aditivos que se le
puedan agregar al motor, el tipo de aceite usado, la regin geogrfica donde se vaya
a hacer el estudio, la manera de manejar el vehculo, el nmero de pasajeros, etc.
Todos estos son factores o variables que, si no se consideran adecuadamente,
pueden ser fuentes potenciales de error experimental estadstico. Estas son
circunstancias que puedan degradar la precisin del modelo estadstico-matemtico
que se desee establecer. Para tales fines, se seleccion un tramo carretero en cierta
regin del hemisferio norte y se tom una muestra aleatoria de 31 casos
promediados durante 10 aos. Los datos se dan en la tabla de abajo.
Tabla mostrando los datos pertinentes a este problema con los datos originales.
25 25
Rendimiento (mi/ gal) con ruido.
20 20
15 15
10 10
5 5
10 20 30 40 50 60 70 80 90 100
Velocidad (mi/ hr) con ruido..
Analysis of Variance
Source DF SS MS F P
Regression 1 436.59 436.59 117.64 0.000
Residual Error 29 107.62 3.71
Total 30 544.21
(c) Al analizar los valores estadsticos objetivistas de R 2= 80.2, s = 1.9264, PRESS = 126.758 y los valores de la tabla de
ANOVA, es muy factible que pudiese existir ruido experimental, porque lo ideal de R 2 es que est lo ms cercanamente
posible a 100%; situacin que no ocurri aqu. Adems el valor del error estndar estimado, s, lo ideal es que se
aproxime a cero. Tambin el valor de PRESS es muy alto, lo que sugiere mucha dispersin de los puntos en la grfica.
Adems, en las grficas de residuos de la grfica de probabilidad normal, hay varios puntos que se alejan de la lnea de
los cuadrados mnimos. Igualmente se observa que el histograma est muy sesgado hacia la derecha. Estos resultados
son un poco preocupantes, porque sugieren la existencia de ruido experimental. Lo que se recomienda en este instante,
es de hacer un refinamiento de los procedimientos y de las tcnicas de campo, para que se pueda controlar el error
experimental y por ende, la optimizacin del modelo de prediccin.
9.6. Con respecto al estudio anterior de los vehculos contaminantes, se observ que
los valores de R2, s, PRESS y los valores de la tabla de ANOVA acogieron ruido
experimental. Por lo tanto se procedi a agrupar por caractersticas similares los
factores que afectaron la relacin rendimiento-velocidad y la generacin de
contaminantes atmosfricos. Para corregir estas interferencias se corrigieron los
valores extrnsecos y se estructur una tabla similar a la del estudio anterior con los
valores corregidos. Posteriormente se procedi a evaluar el nuevo modelo con los
resultados obtenidos despus de controlar el ruido de fondo. La tabla de abajo
muestra este nuevo contrato.
Tabla mostrando los datos pertinentes a este problema, sin ruido.
Rendimie Velocidad Rendimiento Velocidad
9-63
nto (mi/hr) (mi/gal) (mi/hr)
(mi/gal) (Cont.) (Cont.)
18.0 30 8.5 82
12.5 60 11.0 68
9.0 80 19.0 25
6.5 95 17.5 33
5.6 100 15.0 48
7.5 90 14.0 53
8.0 85 12.5 62
10.0 75 10.8 72
11.0 70 19.5 20
11.8 65 18.0 28
13.5 55 15.5 43
14.0 50 9.3 78
15.0 45 18.9 22
16.0 40 16.3 38
17.0 35 13.0 58
6.0 97
Hacer lo siguiente:
(a) Una grfica que vaya en funcin del rendimiento del combustible y la velocidad
del vehculo ajustando un modelo de regresin lineal, es decir, con los nuevos
valores.
(b) Calcular la ecuacin de regresin lineal y enseguida evaluar la utilidad del
modelo a travs de diagnsticos objetivistas, como el coeficiente de determinacin
R2, el coeficiente del error estndar estimado s, el valor de PRESS y tabla de
ANOVA. Enseguida, evaluar la confiabilidad del modelo a travs de grficos de
residuales.
(c) Dar una explicacin narrativa de los resultados por medio de hacer
comparaciones entre los resultados del ejercicio anterior donde haba errores
experimentales y con los nuevos resultados con el ruido experimental controlado.
Respuesta:
(a) La grafica usando los valores depurados se da abajo.
Grafica del rendimiento (m/ gal.) en funciion de la velocidad (mi/ hr), sin ruido
10 20 30 40 50 60 70 80 90 100
20.0 20.0
17.5 17.5
Rendimiento (mi/ gal)
15.0 15.0
12.5 12.5
10.0 10.0
7.5 7.5
5.0 5.0
10 20 30 40 50 60 70 80 90 100
Velocidad (mi/ hr)
(b) Los diagnsticos objetivistas y subjetivistas con los valores depurados se dan abajo.
The regression equation is
Rendimiento (mi/gal) sin ruido = 23.1 - 0.175 (Velocidad,mi/hr)
Predictor Coef SE Coef T P VIF
Constant 23.0778 0.0920 250.94 0.000
Velocidad (mi/hr) sin ruido -0.174924 0.001470 -119.03 0.000 1.000
9-64
Regression 1 509.38 509.38 14167.96 0.000
Residual Error 29 1.04 0.04
Total 30 510.43
La evaluacin subjetivista se da en la figura de abajo.
Residual Plots for Rendimiento (mi/ gal) sin ruido
Normal Probability Plot Versus Fits
99 2
Standardized Residual
90 1
Percent
50 0
10 -1
1 -2
-2 -1 0 1 2 5 10 15 20
Standardized Residual Fitted Value
6 1
Frequency
4 0
2 -1
0 -2
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Standardized Residual Observation Order
(c) Se hacen los siguientes comentarios: Al controlar el ruido experimental, el valor de R 2 = 99.8 aument
sustancialmente con respecto a 80.2. El valor del error estndar estimado s = 0.1896 disminuy por una orden de
magnitud con respecto a 1.9264. Igualmente, el valor de PRESS = 1.1874 disminuy considerablemente, con respecto a
126.758. Los valores de la tabla de ANOVA tambin mejoraron, porque el error cuadrtico medio de 0.04 bajo
significantemente con respecto al valor de 3.71, con ruido. Con respecto a la evaluacin subjetiva, se observa que en la
grfica de probabilidad normal, mejor notablemente con respecto a la anterior con ruido de fondo y as sucesivamente.
Por todo lo anteriormente descrito se concluye que el ruido experimental fue prcticamente eliminado, al refinar las
tcnicas de campo o de laboratorio; condiciones que optimizaron la calidad del modelo buscado.
2.0
Solubilidad del oxigeno_1
1.8
1.6
1.4
1.2
1.0
0 10 20 30 40 50
Temperatura_ 1
(b) Uno cuadrtico. Solubilidad del oxgeno = 2.11 - 0.0461 (Temperatura) + 0.000459 (Temperatura) 2.
(c) 1.399 mM/L
9.8. Cuando se habla de mediciones de ozono (O3), es necesario aclarar que hay dos
tipos de ozono (O3): el ozono natural (bueno) situado en la estratosfera, que nos
protege de la daina radiacin ultravioleta y el ozono artificial (malo), que se
genera a nivel del suelo, mismo que se discute en este ejercicio. El O3 artificial es un
gas contaminante secundario que se forma por la reaccin qumica entre los xidos
de nitrgeno (NOx) y los compuestos orgnicos voltiles (COV), en la presencia de
luz solar y la temperatura. Por esta razn, las concentraciones del ozono malo son
ms altas en verano y alcanzan los mximos al medio da. Los ingredientes qumicos
que intervienen en la formacin del O3 malo son las emisiones vehiculares e
industriales, vapores de la gasolina, solventes qumicos y compuestos orgnicos
voltiles y el calor. El O3 artificial es el principal constituyente en la formacin del
llamado smog fotoqumico. Los estndares del ozono por 8 horas son de 0.075
partes por milln (ppm) y de 0.012 (ppm), para 1 hora. De acuerdo a la
Environmental Protection Agency (EPA) de los E. U. A., la exposicin al O3
artificial (ms comn en verano) puede ocasionar varios problemas sintomticos de
salud, como dolor de pecho, tos, irritacin de la garganta, irritacin de los ojos y
congestin. Adems puede agravar los sntomas de la bronquitis, enfisema y el asma
(que no son enfermedades particulares, sino sntomas de enfermedad, que no es lo
mismo). La exposicin continua al O3 puede causar cicatrices permanentes en los
tejidos pulmonares. Para este estudio se usaron datos reales provenientes de dos
estaciones de muestreo localizadas en El Paso, Texas, U.S.A., llamadas Chamizal
y UTEP. Estas estaciones de muestreo son manejadas por la EPA, a travs de la
agencia estatal ambiental del estado de Texas (TNRCC). La informacin se tom
cada hora por 365 das del ao correspondientes al periodo (1999-2004). Esto
9-66
equivali a 37,265 entradas. Despus, se calcularon los promedios mensuales, en
unidades partes por billn (ppb), para cada uno de los 6 aos. Aqu, se asume que
hay dependencia entre las concentraciones de ozono captadas por los dos
muestreadores. Las tablas de abajo muestran las concentraciones promedio de O 3
(ppb), para las estaciones de muestreo Chamizal y UTEP.
Tabla mostrando las concentraciones promedio de ozono a nivel del suelo (ppb),
para la estacin muestreadora Chamizal correspondientes al periodo (1999-2004).
Hacer lo siguiente:
(a) Hacer grficas de probabilidad normal para cada uno de los 12 meses, para el
periodo (1999-2004), para los datos de las dos estaciones de muestreo, para revisar
por la simetra de los datos. (b) Hacer una correlacin de Pearson y calcular el
coeficiente R, entre los dos juegos de promedios de ozono de las dos estaciones. El
coeficiente de correlacin R es una medida de la extensin con que las dos
mediciones varan conjuntamente.
(c) Hacer una grfica sobrepuesta que vaya en funcin de las concentraciones de
ozono de cada una de las dos estaciones de muestreo y del tiempo en meses.
(d) Cree usted que exista algn tipo de error experimental?
Respuesta:
(a) Las grficas de probabilidad normal se dan abajo.
afica de probabilidad normal para los datos de las dos estaciones de muestreos de ozo
Normal - 95% CI
0 15 30 45 60 0 15 30 45 60
Chamizal UT EP Chamizal
0.99 0.99 0.99 0.99
Mean 28.96
StDev 9.260
0.95 0.95 0.95 0.95 N 12
AD 0.545
0.9 0.9 0.9 0.9
P-Value 0.126
0.8 0.8 0.8 0.8 UTEP
Probability
9-67
(b) El coeficiente de correlacin de Pearson de Chamizal y UTEP = 0.997, P-Value = 0.000
(c) Las grficas sobrepuesas de las concentraciones de las dos estaciones se dan abajo.
35 35
Y-Data
30 30
25 25
20 20
15 15
0 2 4 6 8 10 12
Tiempo (meses)
Hacer lo siguiente:
(a) Un diagrama esparcido para analizar la configuracin de los datos.
(b) Calcular la ecuacin de regresin. Luego, validar la utilidad del sistema usando
Enfoques objetivistas y subjetivistas.
(c) Calcular la distancia despus de 10 segundos.
(d) Enlistar las posibles fuentes de errores experimentales (Para contestarse por el
Lector).
Respuesta:
(a) El diagrama esparcido es:
Scatterplot of Distancia (m) vs Tiempo (seg)
16
14
12
10
Distancia (m)
0 1 2 3 4 5
Tiempo (seg)
Median 100.0 60
3rd Quartile 5500.0 50
0 2000 4000 6000 8000 10000 Maximum 10000.0 40
95% C onfidence I nterval for Mean 30
-3201.4 7645.8 20
95% Confidence I nterval for Median
1.0 10000.0 10
95% C onfidence I nterval for StDev 5
9 5% C onfidence I ntervals
2617.0 12551.8
Mean
1
Median -20000 -10000 0 10000 20000
- 5000 - 2500 0 2500 5000 7500 10000
Mediciones
Log mediciones
0
1
2
3
4
Minimum 0.0000 60
1st Q uartile 0.5000 50
Median 2.0000 40
3rd Q uartile 3.5000 30
0 1 2 3 4
Maximum 4.0000 20
95% Confidence I nterv al for Mean
10
0.0368 3.9632
5
95% Confidence Interval for Median
0.0000 4.0000
1
95% Confidence Interv al for S tDev
1 01 1 1 1 10 100 00 000 00 000 00 000 00
00 0.01
95 % Confidence I nter vals
0.9473 4.5435 00 0.
Mean 00 0. 00 0. 10 10 00 00
10 1000 00 0000 00
00
0.
10 10 00
Median 10
Mediciones
0 1 2 3 4
REFERENCIAS
9-69
1. Daniel, W. W., Terrel, J. C. (1989). Business Statistics. For Management and Economics.
Hougton Mifflin Company.
5. Hanavis, S. A. , Rajagapolon, B., Lall, U. (2010). Local Polynomial Based Flood Frequency
Estimation of Mixed Population. Journal of Hydrologic Engineering.
6. Quevedo, H., Prez, B. R. (2008). Estadsica para Ingeniera y Ciencias. Grupo Editorial
Patria, S. A. de C. V. (p. 364)
7. Hamburg, M. (1989). Statistical Analysis for Decision Making. Quinta edicin. Harcourt Brace
Jovanovich, Publishers (p. 547).
8. Keller, G., Warrack, B, Bartel, H. (1990). Statistics for Management and Economics. Second
edition. Wadsworth Publishing Company. (p. 775).
9. Sharma, H. D. Sharma, Lewis, S. S. (1994). Waste Containment Systems, Waste Stabilization and
Landfill, Design and Evaluation. John Wiley & Sons, Inc.
10. Bedient, P. B., Huber, W. C. (1988). Hydrology and Floodplain Analysis. Addison-Wesley
Publishing Company. (p. 342)
12. NCSS (Statistical Software). Computer Program for statistical analyses, created in 1981. NCSS
LLC is the company that produced NCSS.
13. Paztor, A. R. (1998). Una Nueva Filosofa Mdica Racionalista: Cncer y SIDA y la
Importancia de Vivir Naturalmente. Naturheilkunde Publishing Company. El Paso, Texas, U. S. A.
E:mail:hquevedo@elp.rr.com.
14. http:/www.backrags.com (2010).
13. Keller, G., Warrack, B, Bartel, H. (1990). Statistics for Management and Economics. Second
edition. Wadsworth Publishing Company. (p. 775).
9-70
15. Sakia, R. M. (1992). The Box-Cox Transformation Technique: a Review. The Statistitian, 41,
169-178.
16. Box, G. E. P. and Cox, D. R. (1964), An Analysis of Transformations, Journal of the Royal
Statistical Society, 211-243, discussion 244-252.
17. Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied Linear Regression
Models. The McGraw-Hill Companies, Inc. (p.345).
18. White, H. (1980). A Heteroscedasticity-Consistent Covariance Matrix and Direct Test for
Heteroscedasticity. Econometrica, p. 48:817-838).
19. Breusch, T. S.; Pagan, A. R. (1979). "A Simple Test for Heteroskedasticity and Random
Coefficient Variation". Econometrica47 (5): 12871294.
20. Devore, J. L. (2000). Probability and Statistics for Engineering and the Sciences. Duxbury
Thomson Learning. (p.568-569, p. 571).
21. Atkins, P., Jones, L. (1997). Chemistry. Molecules and Matter. W. H. Freeman and Company,
New York. (P. 223, P. 822).
23. White, H. (1980). A Heteroscedasticity-Consistent Covariance Matrix and Direct Test for
Heteroscedasticity. Econometrica, p. 48:817-838).
25. http://ir.library.oregonstate.edu/xmlui/bitstream/handle/1957/4182/SR%20no.
%20141_ocr.p df?sequence=1(2015).
26. Theodore Brown, Eugene H. LeMay, Bruce E. Burnsten, Catherine Murph, Patrick
Woodward. Chemistry de Central Science, Vol. 3 (2012).
27. Moran, P. A. P. (1950). "Notes on Continuous Stochastic
Phenomena". Biometrika 37 (1): 1723. doi:10.2307/2332142. JSTOR 2332142.
http://www.uru.edu/fondoeditorial/libros/pdf/manualdestatistix/cap6.pdf
GEOB 479.
http://ibis.geog.ubc.ca/courses/geob479/notes/spatial_analysis/spatial_autocorrelation.htm
9-71
http://blog.naver.com/PostView.nhn?
9-72
blogId=fltops&logNo=114706341&parentCategoryNo=7&categoryNo=&viewDate=&isShowPop
ularPosts=true&from=search
9-73
Spatial autocorrelation approaches to
testing residuals from least squares
regression
Yanguang Chen
(Submitted on 15 Mar 2015)
In statistics, the Durbin-Watson test is always employed to detect the presence of serial correlation of
residuals from a least squares regression analysis. However, the Durbin-Watson statistic is only
suitable for ordered time or spatial series. If the variables comprise cross-sectional data coming from
spatial random sampling, the Durbin-Watson will be ineffectual because the value of Durbin-Watson's
statistic depends on the sequences of data point arrangement. Based on the ideas from spatial
autocorrelation, this paper presents two new statistics for testing serial correlation of residuals from
least squares regression based on spatial samples. By analogy with the new form of Moran's index,
an autocorrelation coefficient is defined with a standardized residual vector and a normalized spatial
weight matrix. Then on the analogy of the Durbin-Watson statistic, a serial correlation index is
constructed. As a case, the two statistics are applied to the spatial sample of 29 China's regions.
These results show that the new spatial autocorrelation model can be used to test the serial
correlation of residuals from regression analysis. In practice, the new statistics can make up for the
deficiency of the Durbin-Watson test.
Comments:27 pages, 4 figures, 5 tables, 2 appendices
Subjects:Methodology (stat.ME); Physics and Society (physics.soc-ph)
DOI: 10.1371/journal.pone.0146865
Cite as: arXiv:1503.04407 [stat.ME]
(or arXiv:1503.04407v1 [stat.ME] for this version)
Submission history
From: Yanguang Chen [view email]
[v1] Sun, 15 Mar 2015 10:07:50 GMT (312kb)
9-74
What is spatial autocorrelation (spatial
dependency)?
Spatial autocorrelation in GIS helps understand the degree to which one
object is similar to other nearby objects. Morans I (Index) is used to
measure spatial autocorrelation.
9-75
generates a Morans index of -1.00 with a z-score of -7.59. (Remember that
the z-score indicates the statistical significance given the number of features
in the dataset). This checkerboard pattern has a less than 1% likelihood that
it is the result of random choice
Addressing spatial autocorrelation in your analysis is not impossible and leads to more robust and replicable
results.
Analysis of spatial autocorrelation can be broken down into steps: detecting, describing, and
adjusting/predicting.
Detecting autocorrelation
These pages demonstrate how to use Moran's I or a Mantel test to check for spatial autocorrelation in your
data. Moran's I is a parametric test while Mantel's test is semi-parametric. Both will also indicate if your spatial
autocorrelation is positive or negative and provide a p-value for the level of autocorrelation. Both test against the
null that there is no spatial autocorrelation. Moran's I does this with a correlation that is weighted by inverse
distances; the Mantel test examines the correlation between two distance matrices and generating a null
distribution for this correlation by randomly permuting one of the matrices.
9-76
of some variable across a map, high values tend to be geographic
neighbors of low values, intermediate values tend to be
geographic neighbors of intermediate values, and low values tend
to be geographic neighbors of high values.
|
Other versions
Calculations
Interpretation
Output
FAQs
Potential applications
Additional resources
9-77
The Spatial Autocorrelation (Global Moran's I) tool measures spatial autocorrelation based on
both feature locations and feature values simultaneously. Given a set of features and an associated
attribute, it evaluates whether the pattern expressed is clustered, dispersed, or random. The tool
calculates the Moran's I Index value and both a a z-score and p-value to evaluate the significance
of that Index. P-values are numerical approximations of the area under the curve for a known
distribution, limited by the test statistic.
Calculations
9-78
n n
wi,j zi zj
i=1 j=1
I = n/So
n
z2i
i=1
Donde: So = wi,j
i=1 j=1
I E[I]
zI =
(V[I])0.5
Donde: E[I] = - 1 / (n 1), V[I] = E[I2] E[I]2
9-79
SAS (Statistical Analysis System)[1] is a software suite developed by SAS Institute for advanced
analytics, multivariate analyses, business intelligence, data management, and predictive analytics
9-80