Documentos de Académico
Documentos de Profesional
Documentos de Cultura
yacerque@gmail.com
AJUSTES DE CURVAS
Mtodos Lineales y Estimacin por Mnimos Cuadrados
Ing. Yamil Armando Cerquera1
Esp Sistemas U. Nacional de Colombia
Facultad de Ingeniera
Universidad Surcolombiana
CONTENIDO
Prembulo ................................................................................................................................................................................2
Introduccin .............................................................................................................................................................................2
Objetivos....................................................................................................................................................................................3
Regresin Simple y Correlacin...............................................................................................................................................3
Suposiciones de la Regresin Lineal.....................................................................................................................................4
Problemas al Ajustar un Modelo de Regresin Lineal Simple ............................................................................................5
Mtodo de Mnimos Cuadrados .............................................................................................................................................7
Criterio para un mejor ajuste...........................................................................................................................................8
Primera forma de obtener los valores a y b..........................................................................................................................8
Primera Ecuacin Normal ................................................................................................................................................9
Segunda Ecuacin Normal ...............................................................................................................................................9
EJEMPLO 1 ...................................................................................................................................................................10
EJEMPLO 2 ...................................................................................................................................................................11
Segunda forma de obtener los valores de a y b...................................................................................................................13
Error estndar en la estimacin .........................................................................................................................................14
Coeficiente de determinacin..............................................................................................................................................15
Coeficiente de correlacin ..................................................................................................................................................17
Modelo de regresin lineal con el uso de matrices y varias variables independientes .....................................................18
EJEMPLO 3........................................................................................................................................................................19
Modelo de regresin lineal con el uso de matrices y una sola variable independiente ....................................................21
EJEMPLO 4........................................................................................................................................................................23
1 de 23
yacerque@gmail.com
Prembulo
A lo largo de la profesin de un ingeniero, un fsico, un matemtico, frecuentemente se
presentan ocasiones en las que deben ajustar curvas a un conjunto de datos representados
por puntos. Las tcnicas desarrolladas para este fin pueden dividirse en dos categoras
generales: interpolacin y regresin. Se considerar aqu la primera de estas dos categoras.
Ms an, como la teora de aproximacin polinomial es ms adecuada para un primer curso
de clculo numrico, ser la que se considere principalmente en este trabajo.
Cuando se asocia un error sustancial a los datos, la interpolacin polinomial es inapropiada
y puede llevar a resultados no satisfactorios cuando se usa para predecir valores
intermedios. Los datos experimentales a menudo son de ese tipo. Una estrategia mas
apropiada en estos casos es la de obtener una funcin aproximada que ajuste
adecuadamente el comportamiento o la tendencia general de los datos, sin coincidir
necesariamente con cada punto en particular.
Una lnea recta puede usarse en la caracterizacin de la tendencia de los datos sin pasar
sobre ningn punto en particular. Una manera de determinar la lnea, es inspeccionar de
manera visual los datos graficados y luego trazar la mejor lnea a travs de los puntos.
Aunque este enfoque recurre al sentido comn y es vlido para clculos a simple vista es
deficiente ya que es arbitrario. Es decir, a menos que los puntos definan una lnea recta
perfecta (en cuyo caso la interpolacin seria apropiada), cada analista trazar rectas
diferentes.
La manera de quitar esta subjetividad es considerar un criterio que cuantifique la
suficiencia del ajuste. Una forma de hacerlo es obtener una curva que minimice la
diferencia entre los datos y la curva y el mtodo para llevar a cabo este objetivo es al que
se le llama regresin con mnimos cuadrados.
Introduccin
El presente trabajo forma parte de los objetivos y contenidos de aprendizaje de la ctedra
MTODOS NUMRICOS, que pretende desarrollar las habilidades para la utilizacin de los
mtodos lineales y estimacin de mnimos cuadrados.
En este trabajo bsicamente se habla de cmo desarrollar la aplicacin de los mtodos
lineales y estimacin por mnimos cuadrados, adems de inferencia, prediccin y
correlacin.
Se desarrollaron una serie de ejemplos mediante los cuales se trata de presentar la
manera ms sencilla de usar estos mtodos.
Si se sabe que existe una relacin entre una variable denominada dependiente y otras
denominadas independientes (como por ejemplo las existentes entre: la experiencia
2 de 23
yacerque@gmail.com
Objetivos
Entre los objetivos propuestos en este apartado se puede citar los siguientes:
1.
Que sea fcilmente comprensible para los alumnos con un conocimiento mnimo de
matemticas;
2.
Capacitar a los alumnos para que practiquen los mtodos numricos en una computadora;
3.
4.
3 de 23
yacerque@gmail.com
y
x
Es la variable dependiente, y
Es la variable independiente.
y = a + bx + e
Donde:
4 de 23
yacerque@gmail.com
5 de 23
yacerque@gmail.com
6 de 23
yacerque@gmail.com
Figura 5. Existen puntos atpicos que probablemente influyan en la estimacin de la recta ajustada.
Figura 6. Existe una variable regresora binaria que se debe de incluir en el modelo de regresin.
(Y Y ) = 0 .
7 de 23
2.
yacerque@gmail.com
Es mnima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta dara
_
(Y Y )
0 (mnima).
i =1
i =1
Ei = ( yi a0 a1 xi )
Ec 1
Otro criterio seria minimizar la suma de los valores absolutos de las diferencias, esto es:
n
i =1
Ei = [ y i a 0 a1 xi ]
Ec 2
i =1
Una tercera estrategia en el ajuste de una lnea ptima es el criterio de mnimas. En este
mtodo, la lnea se escoge de tal manera que minimice la distancia mxima a la que se
encuentra un punto de la lnea recta. Esta estrategia esta mal condicionada para regresin
ya que influye de manera indebida sobre un punto externo, aislado, cuyo error es muy
grande. Se debe notar que el criterio de mnimas, algunas veces esta bien condicionado
para ajustar una funcin simple a una funcin complicada.
Una estrategia que ignora las restricciones anteriores es la de minimizar la suma de los
cuadrados de los residuos, S r , de la siguiente manera:
n
S r = Ei = ( yi a bxi )
i =1
Ec 3
i =1
Este criterio tiene muchas ventajas, incluyendo el que ajusta una lnea nica a un conjunto
dado de datos. Antes de analizar estas propiedades, se muestra un mtodo que determina
los valores de a y b que minimizan la ecuacin Ec 3.
8 de 23
yacerque@gmail.com
dG
dG
= 2 ( y a bx)(1) = 0 =
= 2 ( y a bx) = 0 , donde
da
da
dG
= ( y a bx) = 0 , y si se tienen n trminos entonces.
da
dG
= y na b x = 0 , organizando el sistema se tendr:
da
y = na + b x Primera ecuacin normal Ec 5
dG
dG
= 2 ( y a bx)( x) = 0
= 2 ( y a bx)( x) = 0
db
db
dG
dG
= ( y a bx)( x) = 0
= ( xy ax bx 2 ) = 0
db
db
dG
= xy a x b x 2 = 0 , organizando el sistema se tendr:
db
xy = a x + b x
na + Bb = A
, resolviendo con el programa MatLab, la expresin:
Ba + Db = C
9 de 23
b=
n xy x y
n x 2 ( x )
y a=
yacerque@gmail.com
EJEMPLO 1
Ajstese una lnea recta a los valores x y y de las primeras dos columnas de la siguiente
tabla:
_
xi y i
( yi Y ) 2
xi
yi
( y a bx ) 2
i
1
2
3
4
5
6
7
0.5
2.5
2.0
4.0
3.5
6.0
5.5
24
28
0.5
5.0
6.0
16.0
17.5
36.0
38.5
119.5
8.5765
0.8622
2.0408
0.3265
0.0051
6.6122
4.2908
22.7143
0.1687
0.5625
0.3473
0.3265
0.5896
0.7972
0.1993
2.9911
b=
x y = 119.5 x = 140
x
24
y=
= 3.428571429
y = 24
7
i
2
i
= 28
n xy x y
n x 2 ( x )
y a = y bx , se tiene:
7 *119.5 28 * 24
= 0.839285714
7 *140 28 2
y = 0.07142857 + 0.839285714 x
10 de 23
yacerque@gmail.com
EJEMPLO 2
Se toma una muestra aleatoria de 8 ciudades de una regin geogrfica de 13
departamentos y se determina por los datos del censo el porcentaje de graduados en
educacin superior y la mediana del ingreso de cada ciudad, los resultados son los
siguientes:
CIUDAD
% de (x) Graduados
Ingreso (y) Mediana
1
7.2
4.2
2
6.7
4.9
3
17
7
4
12.5
6.2
5
6.3
3.8
6
23.9
7.6
7
6
4.4
8
10.2
5.4
y = na + b x
xy = a x + b x
y , x , xy , x 2
11 de 23
yacerque@gmail.com
xy
x2
1
2
3
4
5
6
7
8
4.2
4.9
7.0
6.2
3.8
7.6
4.4
5.4
7.2
6.7
17.0
12.5
6.3
23.9
6.0
10.2
30.24
32.83
119.00
77.50
23.94
181.64
26.40
55.08
51.84
44.89
289.00
156.25
39.69
571.21
36.00
104.04
43.50 = 8a + 89.8b
546.63 = 89.8a + 1292.92b
=
=
8a
-718.4a
+
-
89.80b
8064.04b
* (-89.8)
Ec 1
546.63
4373.04
=
=
89.8a
718.4a
+
+
1292.92b
10343.36b
* (8)
Ec 2
b=
466.74
= 0.20477
2279.32
a=
25.120
= 3.139
8
Se tiene entonces que los coeficientes de regresin son: a = 3.139 y b = 0.20477. Por tanto
Significa entonces que por cada incremento en una unidad en X el valor de Y se aumenta
en 0.20477
Esta ecuacin permite estimar el valor de Y para cualquier valor de X, por ejemplo: Una
ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de
ingreso para la ciudad ser:
12 de 23
yacerque@gmail.com
y = na + b x
(Ec 1),
xy = a x + b x 2 (Ec 2)
y = na + b x
n
Y = a + b X , entonces a = Y b X
Reemplazando a en la ecuacin (Ec 2) se tiene:
xy = (Y b X ) x + b x 2 b x 2 = xy (Y b X ) x
b x 2 = xy Y x + b X x
b x 2 = xy
nY x
n
nb X x
b x 2 = xy nYX + nb X
n
2
b x 2 nb X = xy nYX
2
b x 2 n X = xy nYX
b=
xy nYX
2
x2 n X
b=
546.63 8(5.4375)(11.2250)
1292.92 8(11.2250)
58.3425
= 0.20477
284.9150
Utilizando todos los ingresos observados en cada ciudad y Y es el valor estimado con base
en el modelo lineal utilizado para obtener la ecuacin de regresin.
13 de 23
yacerque@gmail.com
Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad
tiene un ingreso mediano observado de Y o = 4.2 al reemplazar en la ecuacin el
porcentaje
Claramente se observa en la grfica que hay una diferencia entre el valor efectivo de Y o y
el valor estimado; esta diferencia se conoce como error en la estimacin, este error se
puede medir. A continuacin se ver el procedimiento.
S YX
o
Y Y
=
n2
Se debe entonces calcular los valores de Y para cada ciudad sustituyendo en la ecuacin
los valores de los porcentajes de graduados de cada ciudad estudiada.
Y = 3.139 + 0.20477( x)
n
Yo
Y Y o -Y
4.2 7.2 4.6 -0.4
(Y o Y ) 2
0.16
14 de 23
yacerque@gmail.com
2
3
4
5
6
7
8
4.9
7.0
6.2
3.8
7.6
4.4
5.4
6.7
17.0
12.5
6.3
23.9
6.0
10.2
4.5
6.6
5.7
4.4
8.0
4.4
5.2
0.4
0.4
0.5
-0.6
-0.4
0.0
0.2
0.16
0.16
0.25
0.36
0.16
0.00
0.04
1.29
SYX
o
Y Y
Coeficiente de determinacin
El cambio de la variable Y generalmente depende de muchos factores, en ocasiones,
difciles de identificar; con el modelo lineal simple, slo tenemos presente uno. Por
ejemplo, en nuestro caso la mediana del ingreso depende no slo del porcentaje de
graduados en el nivel superior, que es, el factor que tenemos presente, pueden entrar a
jugar factores tales como, la distribucin de la edad en la poblacin, la distribucin por
sexo en la poblacin, la industrializacin de la ciudad, el numero de universidades y
muchos otros.
El coeficiente de determinacin mide o interpreta la cantidad relativa de la variacin que
ha sido explicada por la recta de regresin, es decir, la proporcin de cambio en Y
explicado por un cambio en la variable X (X es el factor que se utiliza para calcular la
recta de ajuste o ecuacin de regresin, en el ejemplo es el porcentaje de graduados en el
nivel superior en cada ciudad).
Para el ejemplo el Coeficiente de determinacin va a medir la proporcin del cambio en el
ingreso mediano de cada ciudad, debido o explicado por un cambio en el porcentaje de
graduados en el nivel superior.
Vea algunos componentes de la variabilidad en el anlisis de regresin:
15 de 23
yacerque@gmail.com
( Y - Y ) = variacin explicada de Y.
(Y o Y )
= Variacin total
(Y o Y )
= Variacin no explicada
(Y Y )
= Variacin explicada
(Y o Y )
(Y o Y )
(Y Y )
16 de 23
yacerque@gmail.com
(Y Y )
=
2
2
(Y o Y ) + (Y Y )
2
(Y Y )
=
2
(Y o Y )
2
Yo
1
2
3
4
5
6
7
8
4.2
4.9
7.0
6.2
3.8
7.6
4.4
5.4
43.5
Y o Y
5.44
5.44
5.44
5.44
5.44
5.44
5.44
5.44
-1.24
-1.24
1.56
0.76
1.64
2.16
1.04
0.4
(Y
1.5376
0.29
2.43
0.58
2.69
4.66
1.08
0.001
13.271
y - Y (Y Y ) 2 Y o - y (Y o Y ) 2
4.6
4.5
6.6
5.7
4.4
8.0
4.4
5.2
-0.84
-0.84
1.16
0.26
-1.04
2.56
-1.04
-0.24
0.71
0.88
1.35
0.07
1.08
6.55
1.08
0.06
11.78
-0.4
0.4
0.4
0.5
-0.6
-0.4
0.0
0.2
0.16
0.16
0.16
0.25
0.36
0.16
0.00
0.04
1.29
Y = 43.5 8 = 5.44
(y y )
=
2
(y o y )
2
11.78
= 0.8876
13.271
Generalmente esta proporcin se expresa como porcentaje, por tanto se puede decir que
r 2 = 88.76%
Como conclusin se puede decir que el 88.76% de la variacin en el ingreso mediano de las
ciudades de la muestra esta relacionada o explicada por la variacin en el porcentaje de
graduados en Educacin Superior en cada ciudad.
Coeficiente de correlacin
Este Coeficiente como ya se dijo mide la fuerza de la relacin entre las variables.
coeficiente tiene el signo que tiene b y su valor estar 1 r 1 El signo menos en
ndice significa una relacin negativa y un signo ms una correlacin positiva.
coeficiente se obtiene sacando la raz cuadrada al coeficiente de determinacin y
simboliza con "r".
El
el
El
se
17 de 23
(y y )
2
(y o y )
yacerque@gmail.com
r=
, por tanto r =
11.78
= 0.8876 = 0.942125
13.2710
En este caso el coeficiente r tiene signo positivo ya que toma el valor de b obtenido con
las ecuaciones normales toma valor positivo.
A continuacin se da, a modo de orientacin, como podran interpretarse los valores de r
(positivo o negativo)
0.0
0.2
0.4
0.7
0.9
a
a
a
a
a
0.2
0.4
0.7
0.9
1.0
1 x11
y1
1 x
y
12
2
y = . x = . .
. .
.
1 x
y
1n
n
x 21 ... xk1
0
x22 ... xk 2
1
= .
.
... x k 3
.
.
x2 n ... x kn
k
18 de 23
yacerque@gmail.com
( SSE ) = 0
b
No se presentan los detalles relacionados con las soluciones de las ecuaciones anteriores.
El resultado se reduce a la solucin de b en: ( X ' X )b = X ' y
Ntese la naturaleza de la matriz X. Aparte del elemento inicial, el i-simo rengln
representa los valores x que dan lugar a la respuesta yi. Al escribir
n
n
x
1i
i =1
A= X'X =
.
.
n
x ki
i =1
x1i
i =1
n
x 2i
i =1
n
x12i
x1i x2i
.
.
.
.
i =1
xki x1i
i =1
i =1
xki x2i
i =1
=
x
g
ki
o yi
i =1
i =1
n
n
i =1
i =1
y g = X'y =
.
.
.
.
.
.
n
n
... x ki2
g k = x ki yi
i =1
i =1
...
EJEMPLO 3
Se midi el porcentaje de sobre vivencia de cierto tipo de semen animal, despus del
almacenamiento, en varias combinaciones de concentraciones de tres materiales que se
utilizan para aumentar su oportunidad de sobre vivencia. Los datos son los siguientes:
N
x1(peso %)
x2(peso %)
x3(peso %)
19 de 23
yacerque@gmail.com
25,5
1,74
5,30
10,80
31,2
6,32
5,42
9,40
25,9
6,22
8,41
7,20
38,4
10,52
4,63
8,50
18,4
1,19
11,60
9,40
26,7
1,22
5,85
9,90
26,4
4,10
6,62
25,9
6,32
8,72
9,10
32
4,08
4,42
8,70
10
25,2
4,15
7,60
9,20
11
39,7
10,15
4,83
9,40
12
35,7
1,72
3,12
7,60
13
26,5
1,70
5,30
8,20
377.5
59.43
81.82
115.4
59.43
81.82
115.4
13
59.43 394.7255 360.6621 522.0780
X'X =
81.82 360.6621 576.7264 728.3100
377.5
1877.567
X'y =
2246.661
3337.780
Por lo tanto, las ecuaciones de estimacin de mnimos cuadrados, [ X ' X ][b] = [ X ' y ] , son
59.43
81.82
115.4 b0 377.5
13
59.43 394.7255 360.6621 522.0780 b 1877.567
1 =
20 de 23
yacerque@gmail.com
De los resultados obtenidos con MatLab en una computadora se obtiene los elementos de
la matriz inversa
( X ' X ) 1
=
0.0942 0.0017
0.0166 0.0021
39.1574
1.0161
, De lo cual se infiere que:
b=
1.8616
0.3433
b0= 39.1574, b1 = 1.0161, b2 = -1.8616, b3 = -0.3433.
En consecuencia la ecuacin de regresin estimada es:
)
y = 39.1574 + 1.0161x1 1.8616 x 2 0.3433x3
{(xi , yi ); i = 1,2,..., n}
21 de 23
n
n
x
i
i =1
n
x 2
i =1 i
:
:
n y
x i
i =1
yacerque@gmail.com
xi
i =1
n
x i2
i =1
n
x 3i
i =1
:
:
x iy +1
i =1
y b
x
i 0 yi
i =1
i =1
ni =1
n
n
y +1
3
x i ... x i b1 xi yi
i =1
i =1
i =1
:
n
n
x i4 ... x iy +2 b2 = :
i =1
i =1
:
:
:
:
:
:
: n
n
n
y+2
2y
y
x i ... x i b y xi yi
i =1
i =1
i =1
x i2 ...
Al resolver estas r + 1 ecuaciones, se obtiene las estimaciones b0, b1,....., br y por ello se
22 de 23
yacerque@gmail.com
EJEMPLO 4
Los siguientes datos representan el porcentaje de impurezas que ocurren a varias
temperaturas y tiempos de esterilizacin durante una reaccin asociada con la fabricacin
de cierta bebida.
Tiempo de esterilizacin, Temperatura, x1 (C)
x2 (minutos)
75
100
125
15
20
25
14.05
10.55
7.55
14.93
9.48
6.59
16.56
13.63
9.23
15.85
11.75
8.78
22.41
18.55
15.93
21.66
17.98
16.44
y | x = 0 + 1 x1 + 2 x 2 + 11 x12 + 22 x 22 + ... + 12 x1 x 2
SOLUCIN:
b0 = 56,4668
b11 =0,00081
b1 = -0,36235
b22 = 0,08171
b2 = -2,75299
b12 = 0,00314
)
y = 56.4648 0.36235 x1 2.75299 x2 + 0.00081x12 + 0.08171x22 + 0.00314 x1 x2
La mayora de los principios y procedimientos asociados con la estimacin de funciones de
regresin polinomial caen en la categora de la metodologa de respuesta superficial, un
conjunto de tcnicas que los cientficos e ingenieros han utilizado con bastante xito en
muchos campos. Problemas como la seleccin de un diseo experimental apropiado, en
particular para casos donde hay un nmero grande de variables en el modelo, y la eleccin
de las condiciones "ptimas" de operacin sobre x1 , x2 ,..., xk a menudo se aproximan a
travs del uso de estos mtodos.
23 de 23