Está en la página 1de 23

Ing.

Yamil Armando Cerquera Rojas

yacerque@gmail.com

AJUSTES DE CURVAS
Mtodos Lineales y Estimacin por Mnimos Cuadrados
Ing. Yamil Armando Cerquera1
Esp Sistemas U. Nacional de Colombia
Facultad de Ingeniera
Universidad Surcolombiana

CONTENIDO
Prembulo ................................................................................................................................................................................2
Introduccin .............................................................................................................................................................................2
Objetivos....................................................................................................................................................................................3
Regresin Simple y Correlacin...............................................................................................................................................3
Suposiciones de la Regresin Lineal.....................................................................................................................................4
Problemas al Ajustar un Modelo de Regresin Lineal Simple ............................................................................................5
Mtodo de Mnimos Cuadrados .............................................................................................................................................7
Criterio para un mejor ajuste...........................................................................................................................................8
Primera forma de obtener los valores a y b..........................................................................................................................8
Primera Ecuacin Normal ................................................................................................................................................9
Segunda Ecuacin Normal ...............................................................................................................................................9
EJEMPLO 1 ...................................................................................................................................................................10
EJEMPLO 2 ...................................................................................................................................................................11
Segunda forma de obtener los valores de a y b...................................................................................................................13
Error estndar en la estimacin .........................................................................................................................................14
Coeficiente de determinacin..............................................................................................................................................15
Coeficiente de correlacin ..................................................................................................................................................17
Modelo de regresin lineal con el uso de matrices y varias variables independientes .....................................................18
EJEMPLO 3........................................................................................................................................................................19
Modelo de regresin lineal con el uso de matrices y una sola variable independiente ....................................................21
EJEMPLO 4........................................................................................................................................................................23

Docente de planta. Universidad Surcolombiana. Escalafn Asociado. Programa Ingeniera Electrnica

Universidad Surcolombiana Neiva Huila Colombia

1 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Prembulo
A lo largo de la profesin de un ingeniero, un fsico, un matemtico, frecuentemente se
presentan ocasiones en las que deben ajustar curvas a un conjunto de datos representados
por puntos. Las tcnicas desarrolladas para este fin pueden dividirse en dos categoras
generales: interpolacin y regresin. Se considerar aqu la primera de estas dos categoras.
Ms an, como la teora de aproximacin polinomial es ms adecuada para un primer curso
de clculo numrico, ser la que se considere principalmente en este trabajo.
Cuando se asocia un error sustancial a los datos, la interpolacin polinomial es inapropiada
y puede llevar a resultados no satisfactorios cuando se usa para predecir valores
intermedios. Los datos experimentales a menudo son de ese tipo. Una estrategia mas
apropiada en estos casos es la de obtener una funcin aproximada que ajuste
adecuadamente el comportamiento o la tendencia general de los datos, sin coincidir
necesariamente con cada punto en particular.
Una lnea recta puede usarse en la caracterizacin de la tendencia de los datos sin pasar
sobre ningn punto en particular. Una manera de determinar la lnea, es inspeccionar de
manera visual los datos graficados y luego trazar la mejor lnea a travs de los puntos.
Aunque este enfoque recurre al sentido comn y es vlido para clculos a simple vista es
deficiente ya que es arbitrario. Es decir, a menos que los puntos definan una lnea recta
perfecta (en cuyo caso la interpolacin seria apropiada), cada analista trazar rectas
diferentes.
La manera de quitar esta subjetividad es considerar un criterio que cuantifique la
suficiencia del ajuste. Una forma de hacerlo es obtener una curva que minimice la
diferencia entre los datos y la curva y el mtodo para llevar a cabo este objetivo es al que
se le llama regresin con mnimos cuadrados.

Introduccin
El presente trabajo forma parte de los objetivos y contenidos de aprendizaje de la ctedra
MTODOS NUMRICOS, que pretende desarrollar las habilidades para la utilizacin de los
mtodos lineales y estimacin de mnimos cuadrados.
En este trabajo bsicamente se habla de cmo desarrollar la aplicacin de los mtodos
lineales y estimacin por mnimos cuadrados, adems de inferencia, prediccin y
correlacin.
Se desarrollaron una serie de ejemplos mediante los cuales se trata de presentar la
manera ms sencilla de usar estos mtodos.
Si se sabe que existe una relacin entre una variable denominada dependiente y otras
denominadas independientes (como por ejemplo las existentes entre: la experiencia

Universidad Surcolombiana Neiva Huila Colombia

2 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de


personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc.), puede darse
el problema de que la dependiente asuma mltiples valores para una combinacin de
valores de las independientes.
La dependencia a la que hace referencia es relacional matemtica y no necesariamente de
causalidad. As, para un mismo nmero de unidades producidas, pueden existir niveles de
costo, que varan empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los cuales se
obtiene una nueva relacin pero de un tipo especial denominado funcin, en la cual la
variable independiente se asocia con un indicador de tendencia central de la variable
dependiente. Cabe recordar que en trminos generales, una funcin es un tipo de relacin
en la cual para cada valor de la variable independiente le corresponde uno y slo un valor
de la variable dependiente.

Objetivos
Entre los objetivos propuestos en este apartado se puede citar los siguientes:
1.

Que sea fcilmente comprensible para los alumnos con un conocimiento mnimo de
matemticas;

2.

Capacitar a los alumnos para que practiquen los mtodos numricos en una computadora;

3.

Elaborar programas simples que puedan usarse de manera sencilla en aplicaciones


cientficas;

4.

Proporcionar software que resulte fcil de comprender.

La importancia de los mtodos numricos ha aumentado de forma drstica en la enseanza de la


ingeniera y la ciencia, lo cual refleja el uso actual y sin precedentes de las computadoras.
El desarrollo de un programa siempre es importante en el aprendizaje de mtodos numricos. La
presentacin de resultados calculados con grficos utilizando algn software, por ejemplo MATLAB,
motiva a los alumnos para aprender mtodos matemticos y numricos que de otra forma podran
resultar tediosos.

Regresin Simple y Correlacin


La Regresin y la Correlacin son dos tcnicas estadsticas que se pueden utilizar para
solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna
Relacin Funcional entre dos o ms variables, donde una variable depende de la otra
variable.

Universidad Surcolombiana Neiva Huila Colombia

3 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Se puede decir que y depende de x , en donde y y x son dos variables cualquiera en un


modelo de Regresin Simple.
y es una funcin de x y = f (x)
Como y depende de x ,

y
x

Es la variable dependiente, y
Es la variable independiente.

En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y


cul es la variable independiente.
En el Modelo de Regresin Simple se establece que y es una funcin de slo una variable
independiente, razn por la cual se le denomina tambin Regresin Divariada porque slo
hay dos variables, una dependiente y otra independiente y se representa as:

y = f (x) Y est regresando por X


La variable dependiente es la variable que se desea explicar, predecir. Tambin se le
llama REGRESANDO VARIABLE DE RESPUESTA.
La variable Independiente x se le denomina VARIABLE EXPLICATIVA REGRESOR y se le
utiliza para EXPLICAR Y.
En el estudio de la relacin funcional entre dos variables poblacionales, una variable x ,
llamada independiente, explicativa o de prediccin y una variable y , llamada
dependiente o variable respuesta, presenta la siguiente notacin:

y = a + bx + e
Donde:

a : Es el valor de la ordenada donde la lnea de regresin se intercepta con el eje Y.


b : Es el coeficiente de regresin poblacional (pendiente de la lnea recta)
e : Es el error que se comete al ajustar los datos.

Suposiciones de la Regresin Lineal


1.
2.
3.
4.
5.
6.

Los valores de la variable independiente X son fijos, medidos sin error.


La variable Y es aleatoria
Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y)
Las variancias de las subpoblaciones Y son todas iguales.
Todas las medias de las subpoblaciones de Y estn sobre la recta.
Los valores de Y estn normalmente distribuidos y son estadsticamente independientes.

Universidad Surcolombiana Neiva Huila Colombia

4 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Problemas al Ajustar un Modelo de Regresin Lineal Simple


Al ajustar un modelo de regresin lineal simple se pueden presentar diferentes problemas
bien porque no existe una relacin lineal entre las variables o porque no se verifican las
hiptesis estructurales que se asumen en el ajuste del modelo. Estos problemas son los
siguientes:
9 Falta de Linealidad, porque la relacin entre las dos variables no es lineal
o porque variables explicativas relevantes no han sido incluidas en el
modelo.
9 Existencia de valores atpicos e influyentes, existen datos atpicos que se
separan de la nube de datos muestrales e influyen en la estimacin del
modelo.
9 Falta de Normalidad, los residuos del modelo no se ajustan a una
distribucin normal.
9 Heterocedasticidad, La heterocedasticidad es la existencia de una
varianza no constante en las perturbaciones aleatorias de un modelo
economtrico.
9 Dependencia
(autocorrelacin),
existe
dependencia
entre
las
observaciones.
En este apartado se estudia como detectar estos problemas, su influencia en el clculo del
modelo de regresin y las posibles soluciones de los mismos.
Un primer paso para el estudio de estos problemas es la realizacin de un estudio
descriptivo, analtico y grfico, de la muestra. En particular el grfico de puntos de la
muestra bidimensional permite detectar algunos problemas como se deja de manifiesto en
las siguientes figuras (1 al 6).
Figura 1. La nube de puntos muestrales bidimensionales parece ajustarse bien a una recta.

Universidad Surcolombiana Neiva Huila Colombia

5 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Figura 2. El ajuste lineal no parece adecuado para esta muestra.

Figura 3. No existe relacin lineal entre las dos variables.

Figura 4. Claros indicios de heterocedasticidad.

Universidad Surcolombiana Neiva Huila Colombia

6 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Figura 5. Existen puntos atpicos que probablemente influyan en la estimacin de la recta ajustada.

Figura 6. Existe una variable regresora binaria que se debe de incluir en el modelo de regresin.

Mtodo de Mnimos Cuadrados


El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados
en un diagrama de dispersin se conoce como "el mtodo de los mnimos cuadrados". El
ejemplo mas simple de una aproximacin por mnimos cuadrados es el ajuste de una lnea
recta a un conjunto de parejas de datos observadas: ( x1 , y1 ), ( x2 , y 2 ), ( x3 , y3 ),..., ( xn , y n ) .
La recta resultante y = a + bx + E , en donde a y b son coeficientes que representan la
interseccin con el eje de las abcisas y la pendiente, E es el error o residuo entre las
observaciones y el modelo, E = y a + bx , y presenta dos caractersticas importantes:
1.

Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de


ajuste

(Y Y ) = 0 .

Universidad Surcolombiana Neiva Huila Colombia

7 de 23

Ing. Yamil Armando Cerquera Rojas

2.

yacerque@gmail.com

Es mnima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta dara
_

(Y Y )

una suma menor de las desviaciones elevadas al cuadrado

0 (mnima).

Criterio para un mejor ajuste


Una estrategia que obtiene la mejor lnea a travs de los puntos debe minimizar la suma
de los errores residuales, como en:
n

i =1

i =1

Ei = ( yi a0 a1 xi )

Ec 1

Otro criterio seria minimizar la suma de los valores absolutos de las diferencias, esto es:
n

i =1

Ei = [ y i a 0 a1 xi ]

Ec 2

i =1

Una tercera estrategia en el ajuste de una lnea ptima es el criterio de mnimas. En este
mtodo, la lnea se escoge de tal manera que minimice la distancia mxima a la que se
encuentra un punto de la lnea recta. Esta estrategia esta mal condicionada para regresin
ya que influye de manera indebida sobre un punto externo, aislado, cuyo error es muy
grande. Se debe notar que el criterio de mnimas, algunas veces esta bien condicionado
para ajustar una funcin simple a una funcin complicada.
Una estrategia que ignora las restricciones anteriores es la de minimizar la suma de los
cuadrados de los residuos, S r , de la siguiente manera:
n

S r = Ei = ( yi a bxi )
i =1

Ec 3

i =1

Este criterio tiene muchas ventajas, incluyendo el que ajusta una lnea nica a un conjunto
dado de datos. Antes de analizar estas propiedades, se muestra un mtodo que determina
los valores de a y b que minimizan la ecuacin Ec 3.

Primera forma de obtener los valores a y b.


La obtencin de los valores de a y b que minimizan esta funcin es un problema que se
puede resolver recurriendo a la derivacin parcial de la funcin en trminos de a y b:
llamemos G a la funcin que se va a minimizar:
G = ( y a bx) 2
Ec 4
Se toma las derivadas parciales de G respecto de a y b que son las incgnitas y se igualan a
cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del
modelo, que pueden ser resueltas por cualquier mtodo ya sea igualacin o matrices para
obtener los valores de a y b.

Universidad Surcolombiana Neiva Huila Colombia

8 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Primera Ecuacin Normal


La ecuacin G = ( y a bx) 2 , se deriva parcialmente respecto de a

dG
dG
= 2 ( y a bx)(1) = 0 =
= 2 ( y a bx) = 0 , donde
da
da
dG
= ( y a bx) = 0 , y si se tienen n trminos entonces.
da

dG
= y na b x = 0 , organizando el sistema se tendr:
da
y = na + b x Primera ecuacin normal Ec 5

Segunda Ecuacin Normal


Ahora se deriva parcialmente la ecuacin G = ( y a bx) 2 respecto de b

dG
dG
= 2 ( y a bx)( x) = 0
= 2 ( y a bx)( x) = 0
db
db
dG
dG
= ( y a bx)( x) = 0
= ( xy ax bx 2 ) = 0
db
db
dG
= xy a x b x 2 = 0 , organizando el sistema se tendr:
db

xy = a x + b x

Segunda ecuacin normal Ec 6

Los valores de a y b se obtienen resolviendo el sistema de dos ecuaciones (Primera y


segunda ecuacin normal) con dos variables (a y b) dados en las Ec 5 y 6. Si se toma lo
siguiente, A = y , B = x, C = xy, D = x 2 , se puede decir que el sistema de

na + Bb = A
, resolviendo con el programa MatLab, la expresin:
Ba + Db = C

ecuaciones quedar as:

S = solve('n*a+B*b=A','B*a+D*b=C','a,b') dar como resultado


S = a: [1x1 sym]
b: [1x1 sym]

Como S es una estructura, toca pedir luego el valor correspondiente al campo b de La


siguiente manera:
S.b
ans = -(-n*C+A*B)/(n*D-B^2), que interpretado como funcin dar:

Universidad Surcolombiana Neiva Huila Colombia

9 de 23

Ing. Yamil Armando Cerquera Rojas

b=

n xy x y
n x 2 ( x )

y a=

yacerque@gmail.com

x 2 y x xy , o con el valor calculado para b, se puede


2
n x 2 ( x )

obtener el valor de a as: a = y bx

EJEMPLO 1
Ajstese una lnea recta a los valores x y y de las primeras dos columnas de la siguiente
tabla:
_
xi y i
( yi Y ) 2
xi
yi
( y a bx ) 2
i

1
2
3
4
5
6
7

0.5
2.5
2.0
4.0
3.5
6.0
5.5
24

28

0.5
5.0
6.0
16.0
17.5
36.0
38.5
119.5

8.5765
0.8622
2.0408
0.3265
0.0051
6.6122
4.2908
22.7143

0.1687
0.5625
0.3473
0.3265
0.5896
0.7972
0.1993
2.9911

Se pueden calcular las siguientes cantidades:


n=7
_
28
x=
=4
7

Usando las ecuaciones: b =

b=

x y = 119.5 x = 140
x
24
y=
= 3.428571429
y = 24
7
i

2
i

= 28

n xy x y
n x 2 ( x )

y a = y bx , se tiene:

7 *119.5 28 * 24
= 0.839285714
7 *140 28 2

a = 3.428571429 0.829285714 * 4 = 0.07142857


Por lo tanto la ecuacin lineal con ajuste por mnimos cuadrados es:

y = 0.07142857 + 0.839285714 x

Universidad Surcolombiana Neiva Huila Colombia

10 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Ejemplo con MatLab:


x = [0.1, 0.4, 0.5, 0.7, 0.7, 0.9];
y = [0.61, 0.92, 0.99, 1.52, 1.47, 2.03];
c = polyfit(x,y,1)
c1 = x(1):0.1:x(length(x))
c2 = polyval(c,c1)
plot(c1,c2);hold on
plot(x,y,'x')
axis([0,1,0,2.1])
xlabel('x')
ylabel('y')

EJEMPLO 2
Se toma una muestra aleatoria de 8 ciudades de una regin geogrfica de 13
departamentos y se determina por los datos del censo el porcentaje de graduados en
educacin superior y la mediana del ingreso de cada ciudad, los resultados son los
siguientes:
CIUDAD
% de (x) Graduados
Ingreso (y) Mediana

1
7.2
4.2

2
6.7
4.9

3
17
7

4
12.5
6.2

5
6.3
3.8

6
23.9
7.6

7
6
4.4

8
10.2
5.4

De las ecuaciones normales:

y = na + b x

xy = a x + b x

Se debe encontrar los trminos de las ecuaciones

y , x , xy , x 2

Por tanto se procede de la siguiente forma:

Universidad Surcolombiana Neiva Huila Colombia

11 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

xy

x2

1
2
3
4
5
6
7
8

4.2
4.9
7.0
6.2
3.8
7.6
4.4
5.4

7.2
6.7
17.0
12.5
6.3
23.9
6.0
10.2

30.24
32.83
119.00
77.50
23.94
181.64
26.40
55.08

51.84
44.89
289.00
156.25
39.69
571.21
36.00
104.04

43.5 89.8 546.63 1292.92

Sustituyendo en las ecuaciones los resultados obtenidos se tiene:


Ec. 1
Ec. 2

43.50 = 8a + 89.8b
546.63 = 89.8a + 1292.92b

Para resolver el anterior sistema, se multiplica la primera ecuacin por (-89.8) y la


segunda por (8) as:
43.50
-3906.30

=
=

8a
-718.4a

+
-

89.80b
8064.04b

* (-89.8)

Ec 1

546.63
4373.04

=
=

89.8a
718.4a

+
+

1292.92b
10343.36b

* (8)

Ec 2

Ec 1 + Ec 2 466.74 = -0- 2279.32b

b=

466.74
= 0.20477
2279.32

Este valor de b se reemplaza en cualquiera de las ecuaciones para obtener el valor de a:


Reemplazando b = 0.20477 en la primera ecuacin normal. (Ec. 1)
43.50 = 8a + 89.8(0.20477) , donde 43.50 = 8a + 18.3880 , despejando a se tiene:

a=

25.120
= 3.139
8

Se tiene entonces que los coeficientes de regresin son: a = 3.139 y b = 0.20477. Por tanto

la ecuacin de regresin queda: Y = 3.1390 + 0.20477 x

Significa entonces que por cada incremento en una unidad en X el valor de Y se aumenta
en 0.20477

Esta ecuacin permite estimar el valor de Y para cualquier valor de X, por ejemplo: Una
ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de
ingreso para la ciudad ser:

Y = 3.1390 + 0.20477 * (28)


Universidad Surcolombiana Neiva Huila Colombia

12 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Y = 8.87 Decenas de miles de $.

Segunda forma de obtener los valores de a y b


Partiendo de las dos ecuaciones normales se tiene:

y = na + b x

(Ec 1),

xy = a x + b x 2 (Ec 2)

Si se divide todos los trminos de la ecuacin normal (Ec 1) entre n quedando:

y = na + b x
n

Se tiene entonces que el primer trmino es Y el segundo trmino es la incgnita a y el


_

tercer termino es la incgnita b multiplicada por X , por tanto quedara de la forma:


_

Y = a + b X , entonces a = Y b X
Reemplazando a en la ecuacin (Ec 2) se tiene:

xy = (Y b X ) x + b x 2 b x 2 = xy (Y b X ) x
b x 2 = xy Y x + b X x

b x 2 = xy

nY x
n

nb X x

b x 2 = xy nYX + nb X

n
2

b x 2 nb X = xy nYX

2
b x 2 n X = xy nYX

b=

xy nYX
2
x2 n X

b=

546.63 8(5.4375)(11.2250)
1292.92 8(11.2250)

58.3425
= 0.20477
284.9150

a = 5.4375 0.20477 (11.2250) = 5.4375 2.2985 = 3.139

Se debe tener presente la diferencia entre el valor de Y obtenido con la ecuacin de

regresin y el valor de Y observado. Mientras Y es una estimacin y su bondad en la


estimacin depende de lo estrecha que sea la relacin entre las dos variables que se
estudian; Y es el valor efectivo, verdadero obtenido mediante la observacin del
investigador. En el ejemplo Y o es el valor mediano del ingreso que obtuvo el investigador

Utilizando todos los ingresos observados en cada ciudad y Y es el valor estimado con base
en el modelo lineal utilizado para obtener la ecuacin de regresin.

Universidad Surcolombiana Neiva Huila Colombia

13 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad
tiene un ingreso mediano observado de Y o = 4.2 al reemplazar en la ecuacin el
porcentaje

De graduados se obtiene un Y estimado de

Y = 3.1390 + 0.20477(1.2) = 4.61

Grficamente lo anterior se puede mostrar as:

Claramente se observa en la grfica que hay una diferencia entre el valor efectivo de Y o y
el valor estimado; esta diferencia se conoce como error en la estimacin, este error se
puede medir. A continuacin se ver el procedimiento.

Error estndar en la estimacin


El error estndar de la estimacin designado por S yx mide la disparidad "promedio" entre

Los valores observados y los valores estimados de Y . Se utiliza la siguiente frmula.

S YX

o
Y Y
=
n2

Se debe entonces calcular los valores de Y para cada ciudad sustituyendo en la ecuacin
los valores de los porcentajes de graduados de cada ciudad estudiada.
Y = 3.139 + 0.20477( x)
n

Yo

Y Y o -Y
4.2 7.2 4.6 -0.4

Universidad Surcolombiana Neiva Huila Colombia

(Y o Y ) 2
0.16

14 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

2
3
4
5
6
7
8

4.9
7.0
6.2
3.8
7.6
4.4
5.4

6.7
17.0
12.5
6.3
23.9
6.0
10.2

4.5
6.6
5.7
4.4
8.0
4.4
5.2

0.4
0.4
0.5
-0.6
-0.4
0.0
0.2

0.16
0.16
0.25
0.36
0.16
0.00
0.04
1.29

SYX

o
Y Y

= 1.29 = 0.215 = 0.46 (Decenas de miles de pesos)


=
n2
82

Como esta medida trata de resumir la disparidad entre lo observado y lo estimado, es


decir, trata de medir la diferencia promedio entre lo observado y lo estimado esperado
de acuerdo al modelo, puede considerarse como un indicador del grado de precisin con
que la ecuacin de regresin, describe la relacin entre las dos variables. Este error
estndar se ve afectado por las unidades y sus cambios ya que es una medida absoluta,
pues, se da en la misma unidad de medida que esta dada la variable Y; en el ejemplo 0.46
sern decenas de miles de pesos, razn por la cual no es posible comparar con las
relaciones de variables dadas en distinta unidad de medida. Es necesario entonces calcular
una medida que interprete o mida mejor el grado de relacin entre las variables.

Coeficiente de determinacin
El cambio de la variable Y generalmente depende de muchos factores, en ocasiones,
difciles de identificar; con el modelo lineal simple, slo tenemos presente uno. Por
ejemplo, en nuestro caso la mediana del ingreso depende no slo del porcentaje de
graduados en el nivel superior, que es, el factor que tenemos presente, pueden entrar a
jugar factores tales como, la distribucin de la edad en la poblacin, la distribucin por
sexo en la poblacin, la industrializacin de la ciudad, el numero de universidades y
muchos otros.
El coeficiente de determinacin mide o interpreta la cantidad relativa de la variacin que
ha sido explicada por la recta de regresin, es decir, la proporcin de cambio en Y
explicado por un cambio en la variable X (X es el factor que se utiliza para calcular la
recta de ajuste o ecuacin de regresin, en el ejemplo es el porcentaje de graduados en el
nivel superior en cada ciudad).
Para el ejemplo el Coeficiente de determinacin va a medir la proporcin del cambio en el
ingreso mediano de cada ciudad, debido o explicado por un cambio en el porcentaje de
graduados en el nivel superior.
Vea algunos componentes de la variabilidad en el anlisis de regresin:

Universidad Surcolombiana Neiva Huila Colombia

15 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

La diferencia entre cada valor de Y observado y Y media se denomina variacin de Y.


( Y o - Y )=Variacin de Y.

La diferencia entre Y estimado y Y media, es la variacin tenida en cuenta por la


ecuacin de regresin, razn por la cual se denomina variacin explicada de Y.

( Y - Y ) = variacin explicada de Y.

La diferencia entre Y o observado y Y estimado, son variaciones consideradas debidas a


factores diferentes al tenido presente por la ecuacin de regresin por eso se llama:
variacin no explicada de Y.
( Y o Y ) = variacin no explicada de Y
La sumatoria de las diferencias en cada una de las formas de variacin la podemos
representar as:

(Y o Y )

= Variacin total

(Y o Y )

= Variacin no explicada

(Y Y )

= Variacin explicada

(Y o Y )

(Y o Y )

(Y Y )

Grficamente esta relacin se puede representar as:

Se mencion anteriormente, que el coeficiente de determinacin es la proporcin de


cambio explicado en Y, por cambio en X, es decir, la proporcin que representa la
variacin explicada de la variacin total. Recuerde una proporcin es la relacin de una
parte con el total, por tanto, el coeficiente de determinacin ser:
Universidad Surcolombiana Neiva Huila Colombia

16 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

(Y Y )
=
2
2
(Y o Y ) + (Y Y )
2

(Y Y )
=
2
(Y o Y )
2

En otras palabras el coeficiente de determinacin es la relacin entre la variacin


explicada y la variacin total. Su valor siempre estar 0 r 2 1 .
Para su clculo se procede as:
n

Yo

1
2
3
4
5
6
7
8

4.2
4.9
7.0
6.2
3.8
7.6
4.4
5.4

43.5

Y o Y

5.44
5.44
5.44
5.44
5.44
5.44
5.44
5.44

-1.24
-1.24
1.56
0.76
1.64
2.16
1.04
0.4

(Y

1.5376
0.29
2.43
0.58
2.69
4.66
1.08
0.001
13.271

y - Y (Y Y ) 2 Y o - y (Y o Y ) 2

4.6
4.5
6.6
5.7
4.4
8.0
4.4
5.2

-0.84
-0.84
1.16
0.26
-1.04
2.56
-1.04
-0.24

0.71
0.88
1.35
0.07
1.08
6.55
1.08
0.06
11.78

-0.4
0.4
0.4
0.5
-0.6
-0.4
0.0
0.2

0.16
0.16
0.16
0.25
0.36
0.16
0.00
0.04
1.29

Y = 43.5 8 = 5.44

(y y )
=
2
(y o y )
2

11.78
= 0.8876
13.271

Generalmente esta proporcin se expresa como porcentaje, por tanto se puede decir que

r 2 = 88.76%
Como conclusin se puede decir que el 88.76% de la variacin en el ingreso mediano de las
ciudades de la muestra esta relacionada o explicada por la variacin en el porcentaje de
graduados en Educacin Superior en cada ciudad.

Coeficiente de correlacin
Este Coeficiente como ya se dijo mide la fuerza de la relacin entre las variables.
coeficiente tiene el signo que tiene b y su valor estar 1 r 1 El signo menos en
ndice significa una relacin negativa y un signo ms una correlacin positiva.
coeficiente se obtiene sacando la raz cuadrada al coeficiente de determinacin y
simboliza con "r".

Universidad Surcolombiana Neiva Huila Colombia

El
el
El
se

17 de 23

Ing. Yamil Armando Cerquera Rojas

(y y )
2
(y o y )

yacerque@gmail.com

r=

, por tanto r =

11.78
= 0.8876 = 0.942125
13.2710

En este caso el coeficiente r tiene signo positivo ya que toma el valor de b obtenido con
las ecuaciones normales toma valor positivo.
A continuacin se da, a modo de orientacin, como podran interpretarse los valores de r
(positivo o negativo)
0.0
0.2
0.4
0.7
0.9

a
a
a
a
a

0.2
0.4
0.7
0.9
1.0

Correlacin muy dbil, despreciable


Correlacin dbil. Bajo
Correlacin moderada
Correlacin fuerte, alto, importante
Correlacin muy fuerte, muy alto

La correlacin entre los valores de dos variables es un hecho. El que lo consideremos


satisfactorio o no, depende de la interpretacin. Otro problema que representa la
correlacin es cuando se pregunta si una variable, de algn modo causa o determina a la
otra. La correlacin no implica causalidad. Si las variables X e Y estn correlacionadas,
esto puede ser por que X causa a Y, o porque Y causa a X o porque alguna otra variable
afecta tanto a X como Y, o por una combinacin de todas estas razones; o puede ser que la
relacin sea una coincidencia.

Modelo de regresin lineal con el uso de matrices y varias


variables independientes
Al ajustar un modelo de regresin lineal mltiple, en particular cuando el nmero de
variables pasa de dos, el conocimiento de la teora matricial puede facilitar las
manipulaciones matemticas de forma considerable. Suponga que el experimentador tiene
k variables independientes x1, x2,....,xk, y n observaciones y1, y2,...., yn, cada una de las
cuales se pueden expresar por la ecuacin: Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i
Este modelo en esencia representa n ecuaciones que describen cmo se generan los
valores de respuesta en el proceso cientfico. Con el uso de la notacin matricial, podemos
escribir la ecuacin: y = X + , donde

1 x11
y1
1 x
y
12

2
y = . x = . .
. .
.
1 x
y
1n
n

Universidad Surcolombiana Neiva Huila Colombia

x 21 ... xk1
0


x22 ... xk 2
1
= .
.

... x k 3
.
.


x2 n ... x kn
k

18 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

Entonces la solucin de mnimos cuadrados para la estimacin de que se ilustra en la


seccin Estimacin de coeficientes, "Regresin lineal mltiple" implica encontrar b para la
que: SSE = (y - Xb)'(y - Xb)
Se minimiza. Este proceso de minimizacin implica resolver para b en la ecuacin

( SSE ) = 0
b
No se presentan los detalles relacionados con las soluciones de las ecuaciones anteriores.
El resultado se reduce a la solucin de b en: ( X ' X )b = X ' y
Ntese la naturaleza de la matriz X. Aparte del elemento inicial, el i-simo rengln
representa los valores x que dan lugar a la respuesta yi. Al escribir

n
n
x
1i

i =1
A= X'X =
.

.
n
x ki
i =1

x1i
i =1
n

x 2i

i =1
n

x12i

x1i x2i

.
.

.
.

i =1

xki x1i
i =1

i =1

xki x2i
i =1

=
x
g
ki
o yi
i =1
i =1

n
n

... x1i xki


g1 = x1i yi

i =1
i =1
y g = X'y =

.
.
.

.
.
.

n
n

... x ki2
g k = x ki yi
i =1
i =1

...

Las ecuaciones normales se pueden escribir en la forma matricial AB=g


Si la matriz A es no singular, se puede escribir la solucin para el coeficiente de regresin
como b = A-1g =(XX)-1Xy
De esta forma se puede obtener la ecuacin de prediccin o la ecuacin de regresin al
resolver un conjunto de k + 1 ecuaciones con un nmero igual de incgnitas. Esto implica
la inversin de la matriz X ' X de k + 1 por k + 1. Las tcnicas para invertir esta matriz se
explican en la mayora de los libros de texto sobre determinantes y matrices elementales.
Por supuesto, se dispone de muchos paquetes de computadora de alta velocidad para
problemas de regresin mltiple, paquetes que no slo imprimen estimaciones de los
coeficientes de regresin, sino que tambin proporcionan otra informacin relevante para
hacer inferencias respecto a la ecuacin de regresin.

EJEMPLO 3
Se midi el porcentaje de sobre vivencia de cierto tipo de semen animal, despus del
almacenamiento, en varias combinaciones de concentraciones de tres materiales que se
utilizan para aumentar su oportunidad de sobre vivencia. Los datos son los siguientes:
N

y(% sobre vivencia)

Universidad Surcolombiana Neiva Huila Colombia

x1(peso %)

x2(peso %)

x3(peso %)

19 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

25,5

1,74

5,30

10,80

31,2

6,32

5,42

9,40

25,9

6,22

8,41

7,20

38,4

10,52

4,63

8,50

18,4

1,19

11,60

9,40

26,7

1,22

5,85

9,90

26,4

4,10

6,62

25,9

6,32

8,72

9,10

32

4,08

4,42

8,70

10

25,2

4,15

7,60

9,20

11

39,7

10,15

4,83

9,40

12

35,7

1,72

3,12

7,60

13

26,5

1,70

5,30

8,20

377.5

59.43

81.82

115.4

Estime el modelo de regresin lineal mltiple para los datos dados.


SOLUCIN:

59.43
81.82
115.4
13
59.43 394.7255 360.6621 522.0780

X'X =
81.82 360.6621 576.7264 728.3100

115.4 522.0780 728.3100 1035.9600

377.5
1877.567

X'y =
2246.661

3337.780
Por lo tanto, las ecuaciones de estimacin de mnimos cuadrados, [ X ' X ][b] = [ X ' y ] , son

59.43
81.82
115.4 b0 377.5
13
59.43 394.7255 360.6621 522.0780 b 1877.567

1 =

81.82 360.6621 576.7264 728.3100 b2 2246.661

115.4 522.0780 728.3100 1035.9600 b3 3337.780


Universidad Surcolombiana Neiva Huila Colombia

20 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

De los resultados obtenidos con MatLab en una computadora se obtiene los elementos de
la matriz inversa

( X ' X ) 1

8.0648 0.0826 0.0942 0.7905


0.0826 0.0085
0.0017
0.0037

=
0.0942 0.0017
0.0166 0.0021

0.7905 0.0037 0.0021 0.0886

Y despus, con el uso de la relacin b = [ X ' X ] * [ X ' y ] , los coeficientes estimados de


regresin son:
1

39.1574
1.0161
, De lo cual se infiere que:
b=
1.8616

0.3433
b0= 39.1574, b1 = 1.0161, b2 = -1.8616, b3 = -0.3433.
En consecuencia la ecuacin de regresin estimada es:

)
y = 39.1574 + 1.0161x1 1.8616 x 2 0.3433x3

Modelo de regresin lineal con el uso de matrices y una sola


variable independiente
Para el caso de una sola variable independiente, el grado del polinomio de mejor ajuste a
menudo se puede determinar al graficar un diagrama de dispersin de los datos que se
obtienen de un experimento que da n pares de observaciones de la forma

{(xi , yi ); i = 1,2,..., n}

Universidad Surcolombiana Neiva Huila Colombia

21 de 23

Ing. Yamil Armando Cerquera Rojas

n
n
x
i

i =1
n
x 2
i =1 i
:

:
n y
x i
i =1

yacerque@gmail.com

xi
i =1
n

x i2
i =1
n

x 3i
i =1

:
:

x iy +1
i =1

y b
x
i 0 yi
i =1
i =1
ni =1

n
n
y +1
3

x i ... x i b1 xi yi
i =1
i =1
i =1
:

n
n
x i4 ... x iy +2 b2 = :
i =1
i =1
:

:
:
:

:
:

: n
n
n
y+2
2y
y
x i ... x i b y xi yi
i =1
i =1

i =1

x i2 ...

Al resolver estas r + 1 ecuaciones, se obtiene las estimaciones b0, b1,....., br y por ello se

genera la ecuacin de prediccin de regresin polinomial: y = b0 + b1 x + b2 x 2 + ... + b y x y


El procedimiento para ajustar un modelo de regresin polinomial se puede generalizar al
caso de ms de una variable independiente. De hecho, el estudiante de anlisis de
regresin debe, en esta etapa, tener la facilidad para ajustar cualquier modelo lineal en, k
variables independientes. Suponga, por ejemplo, que tiene una respuesta Y con k = 2
variables independientes y se postula un modelo cuadrtico del tipo

yi = 0 + 1 x1i + 2 x2i + 11 x 21i + 22 x 2 2i + 12 x1i x2i + i


Donde yi , i = 1,2,..., n es la respuesta para la combinacin x1i , x2i de las variables
independientes en el experimento. En esta situacin n debe ser al menos 6, pues hay seis
parmetros a estimar mediante el procedimiento de mnimos cuadrados.
Adems, como el modelo contiene trminos cuadrticos en ambas variables, se deben usar
al menos tres niveles de cada variable. El lector debe verificar con facilidad que las
ecuaciones normales de mnimos cuadrados [ X ' X ][b] = [ X ' y ] estn dadas por:

Universidad Surcolombiana Neiva Huila Colombia

22 de 23

Ing. Yamil Armando Cerquera Rojas

yacerque@gmail.com

EJEMPLO 4
Los siguientes datos representan el porcentaje de impurezas que ocurren a varias
temperaturas y tiempos de esterilizacin durante una reaccin asociada con la fabricacin
de cierta bebida.
Tiempo de esterilizacin, Temperatura, x1 (C)
x2 (minutos)
75
100
125
15

20

25

14.05

10.55

7.55

14.93

9.48

6.59

16.56

13.63

9.23

15.85

11.75

8.78

22.41

18.55

15.93

21.66

17.98

16.44

Estimar los coeficientes de regresin en el modelo

y | x = 0 + 1 x1 + 2 x 2 + 11 x12 + 22 x 22 + ... + 12 x1 x 2
SOLUCIN:
b0 = 56,4668

b11 =0,00081

b1 = -0,36235

b22 = 0,08171

b2 = -2,75299

b12 = 0,00314

Y la ecuacin de regresin estimada es

)
y = 56.4648 0.36235 x1 2.75299 x2 + 0.00081x12 + 0.08171x22 + 0.00314 x1 x2
La mayora de los principios y procedimientos asociados con la estimacin de funciones de
regresin polinomial caen en la categora de la metodologa de respuesta superficial, un
conjunto de tcnicas que los cientficos e ingenieros han utilizado con bastante xito en
muchos campos. Problemas como la seleccin de un diseo experimental apropiado, en
particular para casos donde hay un nmero grande de variables en el modelo, y la eleccin
de las condiciones "ptimas" de operacin sobre x1 , x2 ,..., xk a menudo se aproximan a
travs del uso de estos mtodos.

Universidad Surcolombiana Neiva Huila Colombia

23 de 23

También podría gustarte