Está en la página 1de 15

Universidad Autónoma de Querétaro

Facultad de Ingenierı́a
Ingenierı́a Fı́sica

Regresión Lineal por Mı́nimos Cuadrados

Alumno: Correo electrónico:


Ubaldo López Mejı́a angelhernandezlopez894@gmail.com

6 de mayo de 2020
Índice general

Capı́tulos Página
1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Criterio para un mejor ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Ajuste de una lı́nea recta por mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . 2
1.4. Cuantificación del error en la regresión lineal . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Linealización de relaciones no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Estimación de errores en el ajuste lineal por mı́nimos cuadrados . . . . . . . . . . . . 5
2.3. Linealización de una ecuación de potencias . . . . . . . . . . . . . . . . . . . . . . . . 5
3. Problemario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1. Problema 17.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2. Problema 17.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4. Código . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2/13

1. Resumen
1.1. Regresión Lineal
El ejemplo más simple de una aproximación por mı́nimos cuadrados es ajustar una lı́nea recta a un
conjunto de observaciones definidas por puntos: (x1 , y1 ), (x2 , y2 ),. . . , (xn , yn ). La expresión matemática
para la lı́nea recta es

y = a0 + a1 x + e (1)
donde a0 y a1 son coeficientes que representan la intersección con el eje y y la pendiente, respectivamente,
e es el error, o diferencia, entre el modelo y las observaciones, el cual se representa al reordenar la ecuación
como

e = y − a0 − a1 x (2)
Ası́, el error o residuo es la discrepancia entre el valor verdadero de y y el valor aproximado, a0 + a1 x,
que predijo la ecuación lineal.

1.2. Criterio para un mejor ajuste


Una estrategia para ajustar una “mejor” lı́nea a través de los datos será minimizar la suma de los errores
residuales de todos los datos disponibles, como sigue:
n
X n
X
ei = (yi − a0 − a1 xi ) (3)
i=1 i=1

donde n es el número total de puntos. Sin embargo, cualquier lı́nea recta que pase a través del punto
medio que une la lı́nea da como resultado un valor mı́nimo de la ecuación (3) igual a cero, debido a que los
errores se cancelan. Por lo tanto, otro criterio lógico podrı́a ser minimizar la suma de los valores absolutos
de las diferencias,
n
X n
X
|ei | = |yi − a0 − a1 xi | (4)
i=1 i=1

La estrategia que supera las deficiencias de los procedimientos mencionados consiste en minimizar la
suma de los cuadrados de los residuos entre la y medida y la y calculada con el modelo lineal
n
X n
X n
X
Sr = e2i = (yi,medida − yi,modelo )2 = (yi − a0 − a1 xi )2 (5)
i=1 i=1 i=1

Este criterio tiene varias ventajas, entre ellas el hecho de que se obtiene una lı́nea única para cierto
conjunto de datos.

1.3. Ajuste de una lı́nea recta por mı́nimos cuadrados


Para determinar los valores de a0 y a1 , la ecuación (4) se deriva con respecto a cada uno de los coeficientes:

∂Sr P
= −2 (yi − a0 − a1xi )
∂a0

∂Sr P
= −2 [(yi − a0 − a1xi )xi ]
∂a1
Al igualar estas derivadas a cero, se dará como resultado un Sr mı́nimo.
P P P
0 = P yi − Pa0 − a1P
xi
0 = yi xi − a0 xi − a1 x2i

Métodos Numéricos 2 angelhernandezlopez894@gmail.com


3/13

P
Ahora, si observamos que a0 = na0 , expresamos las ecuaciones como un conjunto de dos ecuaciones
lineales simultáneas,
P P
na
P0 + ( xi )Pa1 =  yi P
( xi ) a 0 + x2i a1 = xi yi

Éstas se llaman ecuaciones normales, y se resuelven en forma simultánea


P P P
n xi yi − xi yi
a1 = P 2 P
n xi − ( xi ) 2
(6)
a0 = y − a1 x

1.4. Cuantificación del error en la regresión lineal


Una “desviación estándar” para la lı́nea de regresión se determina como sigue
r
Sr
Sy/x = (7)
n−2
donde a sy/x se le llama error estándar de la estimación. El subı́ndice “y/x” designa que el error es para
un valor predicho de y correspondiente a un valor particular de x.
La diferencia entre dos cantidades, St –Sr , cuantifica la mejora o reducción del error por describir los
datos en términos de una lı́nea recta en vez de un valor promedio. Como la magnitud de esta cantidad
depende de la escala, la diferencia se normaliza a St para obtener

St − Sr
r2 = (8)
St
donde r2 se conoce como el coeficiente de determinación y r es el coeficiente de correlación. Una repre-
sentación alternativa para r que es más conveniente para implementarse en una computadora es
P P P
n xi yi − ( xi )( yi )
r= p P 2 p P (9)
n xi − ( xi )2 n yi2 − ( yi )2
P P

1.5. Linealización de relaciones no lineales


Una alternativa simple para trabajar con ecuaciones no lineales consiste en usar manipulaciones ma-
temáticas para transformar ecuaciones no lineales en una forma lineal. Después, se utiliza la regresión lineal
simple para ajustar las ecuaciones a los datos. Por ejemplo, la ecuación

y = α1 eβ1 x (10)
se linealiza al aplicarle el logaritmo natural obteniendo

ln y = ln α1 + β1 x (11)
Ası́, una gráfica de ln y contra x dará una lı́nea recta con una pendiente β1 y una intersección con el eje
de las ordenadas igual a lnα1 .
La ecuación

y = α2 xβ2 (12)
es linealizada al aplicarle el logaritmo de base 10 obteniendo

log y = β2 log x + log α2 (13)


De este modo, una gráfica de log y contra log x dará una lı́nea recta con pendiente β2 e intersección con
el eje de las ordenadas log α2 .

angelhernandezlopez894@gmail.com 3 Métodos Numéricos


4/13

La ecuación

x
y = α3 (14)
β3 + x

es linealizada al invertirla para dar

1 β3 1
= + (15)
y α3 α3

De esta forma, una gráfica de 1/y contra 1/x será lineal, con pendiente β3 /α3 y una intersección con el
eje de las ordenadas 1/α3 .
En sus formas transformadas, estos modelos pueden usar la regresión lineal para poder evaluar los coefi-
cientes constantes. Después, regresarse a su estado original y usarse para fines predictivos.

2. Ejercicios Resueltos
2.1. Regresión Lineal
Ajuste a una lı́nea recta los valores x y y en las dos primeras columnas de la tabla 1.

xi yi (yi − y)2 (yi − a0 − a1 xi )2


1 0.5 8.5765 0.1687
2 2.5 0.8622 0.5625
3 2.0 2.0408 0.3473
4 4.0 0.3265 0.3265
5 3.5 0.0051 0.5896
6 6.0 6.6122 0.7972
7 5.5 4.2908 0.1993
P
24.0 22.7143 2.9911

Tabla 1: Cálculos para el análisis de error en el ajuste lineal

Se calculan las siguientes cantidades:

x2i = 140
P P
n=7 xi yi = 119,5

28
P
xi = 28 x = 7 =4

24
P
yi = 24 y= 7 = 3,428571

7(119,5) − 28(24)
a1 = = 0,8392857
7(140) − (28)2

a2 = 3,428571 − 0,8392857(4) = 0,07142857

Por lo tanto, el ajuste por mı́nimos cuadrados es

y = 0,07142857 + 0,8932857x

La lı́nea se muestra en la siguiente figura.

Métodos Numéricos 4 angelhernandezlopez894@gmail.com


5/13

Figura 1: Resultados mediante el ajuste por mı́nimos cuadrados

2.2. Estimación de errores en el ajuste lineal por mı́nimos cuadrados


Calcule la desviación estándar total, el error estándar del estimado y el coeficiente de correlación para
los datos del anterior ejemplo.
La desviación estándar es

r
22,7143
Sy = = 1,9457
7−1

y el error estándar del estimado es

r
2,9911
Sy/x = = 0,7735
7−2

Como Sy/x < Sy , el modelo de regresión lineal es adecuado. La mejora se puede cuantificar mediante

22,7143 − 2,9911
r2 = = 0,868
22,7143

p
r= 0,868 = 0,932 (16)

Los resultados indican que el modelo lineal explicó el 86,8 % de la incertidumbre original.

2.3. Linealización de una ecuación de potencias


Ajuste la ecuación (13) a los datos de la tabla 2 mediante una transformación logarı́tmica de los datos.

angelhernandezlopez894@gmail.com 5 Métodos Numéricos


6/13

x y log x log y
1 0.5 0 -0.301
2 1.7 0.301 0.226
3 3.4 0.477 0.534
4 5.7 0.602 0.753
5 8.4 0.699 0.922

Tabla 2: Datos que se ajustarán con la ecuación de potencias

La siguiente figura es una gráfica de los datos originales en su estado no transformado.

Figura 2: Gráfica de datos no transformados

La figura 3 muestra la gráfica de los datos transformados.

Métodos Numéricos 6 angelhernandezlopez894@gmail.com


7/13

Figura 3: Gráfica de datos transformados

3. Problemario

3.1. Problema 17.3

Utilice la regresión por mı́nimos cuadrados para ajustar una lı́nea recta a

x 0 2 4 6 9 11 12 15 17 19
y 5 6 7 6 9 8 7 10 12 12

Tabla 3: Datos a evaluar

Además de la pendiente y la intersección, calcule el error estándar de la estimación y el coeficiente de


correlación. Haga una gráfica de los datos y la lı́nea de regresión. Después repita el problema, pero ahora
efectúe la regresión de x versus y, es decir, intercambie las variables. Interprete sus resultados.
Para el primer caso se obtienen los siguientes datos
Intersección: a0 = 4,851535.
Pendiente: a1 = 0,352469.
Error estándar: 1,065009.
Coeficiente de correlación: 0,914767.
La lı́nea se muestra en la siguiente figura.

angelhernandezlopez894@gmail.com 7 Métodos Numéricos


8/13

Figura 4: Gráfica para el primer caso

Para el segundo caso se obtienen los siguientes datos


Intersección: a0 = −9,967626.
Pendiente: a1 = 2,374101.
Error estándar: 2,764025.
Coeficiente de correlación: 0,914767.
La lı́nea se muestra en la siguiente figura.

Figura 5: Gráfica para el primer caso

Métodos Numéricos 8 angelhernandezlopez894@gmail.com


9/13

Como se puede observar, el segundo caso tuvo un error estándar mayor que en el primer caso. Esto significa
que al cambiar las variables, hay una mayor dispersión de los datos alrededor de la lı́nea de regresión.

3.2. Problema 17.9


Ajuste a un modelo exponencial a

x 0.4 0.8 1.2 1.6 2 2.3


y 800 975 1500 1950 2900 3600

Tabla 4: Datos a evaluar

En la tabla 5 se muestran los datos transformados.

x 0.4 0.8 1.2 1.6 2 2.3


ln y 6.6846 6.8824 7.3132 7.5755 7.9724 8.1887

Tabla 5: Datos que se ajustarán con la ecuación exponencial

Una vez hecha la transformación se obtienen los siguientes datos


Intersección: a0 = 6,303701.
Pendiente: a1 = 0,818651.
Error estándar: 0,054389.
Coeficiente de correlación: 0,996633.
La siguiente figura es una gráfica de los datos originales en su estado no transformado.

Figura 6: Gráfica de datos no transformados

La figura 7 muestra la gráfica de los datos transformados.

angelhernandezlopez894@gmail.com 9 Métodos Numéricos


10/13

Figura 7: Gráfica de datos transformados

El modelo de regresión lineal es adecuado. Los resultados indican que el modelo lineal explica el 99,32766 %
de la incertidumbre original.

4. Código
Código usado para la regresión lineal.
1
2 im po rt numpy a s np
3 im po rt p y l a b a s p l
4
5 n=i n t ( i n p u t ( ’ \ n I n t r o d u z c a e l número de d a t o s : ’))
6
7 X=np . z e r o s ( n )
8 Y=np . z e r o s ( n )
9 XY= [ ]
10 X2= [ ]
11
12 p r i n t ( ” \ n I n t r o d u z c a cada dato x : ” )
13 f o r i in range (n) :
14 X[ i ] = i n p u t ( )
15
16 p r i n t ( ” \ n I n t r o d u z c a cada dato y : ” )
17
18 f o r i in range (n) :
19 Y[ i ] = i n p u t ( )
20
21 f o r i in range (0 , n) :
22 XY. append (X[ i ] ∗Y[ i ] )
23 X2 . append (X[ i ] ∗X[ i ] )
24
25 xy=sum (XY)
26 x2=sum (X2)
27 x=sum (X)
28 y=sum (Y)
29
30 xm=x/n
31 ym=y/n

Métodos Numéricos 10 angelhernandezlopez894@gmail.com


11/13

32
33 a1 =((n∗ xy ) −(x∗y ) ) / ( ( n∗ x2 ) −(x ∗ ∗ 2 ) )
34 a0=ym−xm∗ a1
35
36 x r=np . a r a n g e ( 0 , 1 0 0 )
37 y r=a0+a1 ∗ x r
38
39 Sr = [ ]
40 Sy = [ ]
41
42 f o r i in range (0 , n) :
43 Sr . append ( (Y[ i ]−a0−a1 ∗X[ i ] ) ∗ ∗ 2 )
44 Sy . append ( (Y[ i ]−ym) ∗ ∗ 2 )
45
46 s y 0=sum ( Sy )
47 s r=sum ( Sr )
48 sy=np . s q r t ( s y 0 / ( n−1) )
49 syx=np . s q r t ( s r / ( n−2) )
50 r 2 =(sy0−s r ) / s y 0
51
52 # plotea los resultados
53 p l . s c a t t e r (X, Y, c o l o r= ’ b l a c k ’ )
54 p l . p l o t ( xr , yr , ’ b ’ )
55 p l . x l i m ( [ X [ 0 ] , X[ n − 1 ] ] )
56 p l . y l i m ( [ Y [ 0 ] , Y[ n − 1 ] ] )
57 #p l . x t i c k s ( ( ) )
58 #p l . y t i c k s ( ( ) )
59 p l . show ( )
60
61 p r i n t ( ’ El e r r o r e s t á ndar de l a e s t i m a c i o n e s : ’ , syx )
62 p r i n t ( ’ El c o e f i c i e n t e de r e l a c i o n ( r ) e s : ’ , np . s q r t ( r 2 ) )
63
64 i f ( syx<sy ) :
65 p r i n t ( ’ \ nEl modelo de r e g r e s i o n l i n e a l e s adecuado . ’ )
66 p r i n t ( ’ \ nLos r e s u l t a d o s i n d i c a n que e l modelo l i n e a l e x p l i c a e l ’
67 , r 2 ∗ 1 0 0 , ’ % de l a i n c e r t i d u m b r e o r i g i n a l ’ )
Listing 1: Regresión Lineal 1

1 im po rt numpy a s np
2 im po rt p y l a b a s p l
3
4 from s k l e a r n im por t l i n e a r m o d e l
5
6 # e s t e e s n u e s t r o c o n j u n t o de prueba , e s s o l o una l ı́ nea r e c t a con a l g u n r u i d o g a u s s i a n o
7 xmin , xmax = −5, 5
8 n s a m p l e s = 100
9 X = [ [ i ] f o r i i n np . l i n s p a c e ( xmin , xmax , n s a m p l e s ) ]
10 #a r r e g l o que e s p e c i f i c a e l i n t e r v a l o y numero de m u e s t r a s
11 Y = 2 + 0 . 5 ∗ np . l i n s p a c e ( xmin , xmax , n s a m p l e s ) \
12 + np . random . randn ( n s a m p l e s , 1 ) . r a v e l ( )
13
14 # ejecuta el clasificador
15 c l f = linear model . LinearRegression ()
16 c l f . f i t (X, Y)
17
18 # plotea los resultados
19 p l . s c a t t e r (X, Y, c o l o r= ’ b l a c k ’ )
20 p l . p l o t (X, c l f . p r e d i c t (X) , c o l o r= ’ b l u e ’ , l i n e w i d t h =3)
21 pl . xticks ( () )
22 pl . yticks ( () )
23 p l . show ( )
Listing 2: Regresión Lineal 2

angelhernandezlopez894@gmail.com 11 Métodos Numéricos


13

Bibliografı́a

[1] Steven C. Chapra & Raymund P.Conale, Métodos numéricos para ingenieros, 6a ed., J. Peters, Ed.
México: McGraw-Hill, 2011, pp. 416-429.

También podría gustarte