Documentos de Académico
Documentos de Profesional
Documentos de Cultura
David Henao
Mario Valderrama
Ingeniería Biomédica
Universidad de los Andes
Regresión Lineal – Método de mínimos cuadrados
Contexto
El gráfico mostrado a continuación presenta el porcentaje sobre
el número total de muertes atribuido al consumo de cigarrillo en
Colombia entre los años 1990 y 2017:
10.5
Share of deaths from smoking (%)
10
9.5
8.5
Year
Fuente: https://ourworldindata.org/smoking
10
del número total de
9.5
muertes causadas por el
9
8.5
consumo de cigarrillo ha
8 disminuido, pasando de
10.62% en 1990 a 8.3% en
Year
2017.
Fuente: https://ourworldindata.org/smoking
10.5
Sin embargo, podemos
Share of deaths from smoking (%)
10
9.5
apreciar que esa disminución
9 no se ha realizado a una
8.5
tasa constante sino que ha
8
variado a lo largo de los
Year
años.
Fuente: https://ourworldindata.org/smoking
8.5
a otros periodos con tasas de
8
reducción mayores (de 1996 a
Year
2001 por ejemplo).
Fuente: https://ourworldindata.org/smoking
Otra posibilidad podría ser hallar una línea de tendencia que represente el
conjunto de puntos observados y a partir de ésta estimar la tasa de
disminución como la pendiente de la recta.
Otra posibilidad podría ser hallar una línea de tendencia que represente el
conjunto de puntos observados y a partir de ésta estimar la tasa de
disminución como la pendiente de la recta.
Otra posibilidad podría ser hallar una línea de tendencia que represente el
conjunto de puntos observados y a partir de ésta estimar la tasa de
disminución como la pendiente de la recta.
Consideremos la secuencia
de puntos ( x^i , y^ i )
representados en la gráfica
a continuación:
Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5
9
( x^i , y^ i )
8.5
Year
Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5
9
( x^i , y^ i )
Supongamos ahora que 8.5
Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5
9
( x^i , y^ i )
Supongamos ahora que 8.5
Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5
9
( x^i , y^ i )
Supongamos ahora que 8.5
Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5
9
( x^i , y^ i )
Supongamos ahora que 8.5
Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5
9
( x^i , y^ i )
Supongamos ahora que 8.5
Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5
9
( x^i , y^ i )
Supongamos ahora que 8.5
10.5
Share of deaths from smoking (%)
10
9.5
8.5
Year
10
observados (puntos azules)
9.5
corresponden a la secuencia
9
de puntos:
8.5
8
(x i , y^ i ) para 1⩽i⩽N
10
(x 1, y^ 1 ) observados (puntos azules)
9.5 (x N , y^N )
corresponden a la secuencia
9
(x i , y^ i ) de puntos:
8.5
8
(x i , y^ i ) para 1⩽i⩽N
10
mejor representa la
9.5
tendencia de los puntos
9
(x i , y^ i ) observados, y que todos los
8.5
puntos sobre esta recta
8
(puntos rojos) constituyen
la secuencia:
Year
(x i , y i ) para 1⩽i⩽N
(x i , y i )
10
mejor representa la
9.5
tendencia de los puntos
9
(x i , y^ i ) observados, y que todos los
8.5
puntos sobre esta recta
8
(puntos rojos) constituyen
la secuencia:
Year
(x i , y i ) para 1⩽i⩽N
(x i , y i )
10
9.5
9
(x i , y^ i )
8.5
Year
(x i , y i )
10
9.5
x i → y^ i Valor observado
9
(x i , y^ i )
8.5 xi → y i Valor sobre la recta
8
Year
(x i , y i )
10
9.5
x i → y^ i Valor observado
9
(x i , y^ i )
8.5 xi → y i Valor sobre la recta
8
Year
(x i , y i )
10
9.5
x i → y^ i Valor observado
9
(x i , y^ i )
8.5 xi → y i Valor sobre la recta
8
Year
(x i , y i )
10
9.5
x i → y^ i Valor observado
9
(x i , y^ i )
8.5 xi → y i Valor sobre la recta
8
Year
(x i , y i )
10
mismo punto xi, entre el
9.5
valor observado y el valor
9
(x i , y^ i ) sobre la recta:
8.5
8
r i = y^ i− y i
Year
(x i , y i )
10
mismo punto xi, entre el
9.5
ri valor observado y el valor
9
(x i , y^ i ) sobre la recta:
8.5
8
r i = y^ i− y i
Year
(x i , y i )
10
mismo punto xi, entre el
9.5
ri valor observado y el valor
9
(x i , y^ i ) sobre la recta:
8.5
8
r i = y^ i− y i
Year
(x i , y i )
10
entonces los puntos
9.5
ri observados corresponden
9
(x i , y^ i ) exactamente a los puntos
8.5
sobre la recta y en
8
consecuencia todos son co-
Year
lineales!
(x i , y i )
10
entonces los puntos
9.5
ri observados corresponden
9
(x i , y^ i ) exactamente a los puntos
8.5
sobre la recta y en
8
consecuencia todos son co-
Year
lineales!
(x i , y i )
10
los residuos y a partir de
9.5
ri allí estimar los coeficientes
9
(x i , y^ i ) Co y C1 que hacen que la
8.5
suma se aproxime lo más
8
posible a cero!
Year
(x i , y i )
10
los residuos y a partir de
9.5
ri allí estimar los coeficientes
9
(x i , y^ i ) Co y C1 que hacen que la
8.5
suma se aproxime lo más
8
posible a cero!
Year
(x i , y i )
10
los residuos y a partir de
9.5
ri allí estimar los coeficientes
9
(x i , y^ i ) Co y C1 que hacen que la
8.5
suma se aproxime lo más
8
posible a cero!
Year
N
Concretamente queremos encontrar los Co y
C1 que minimizan la siguiente sumatoria:
∑ r i →0
i=1
(x i , y i )
10
magnitud de todos los
9.5
ri residuos y a partir de allí
9
(x i , y^ i ) estimar los coeficientes Co
8.5
y C1 que hacen que la suma
8
se aproxime lo más posible
Year
a cero!
(x i , y i )
10
magnitud de todos los
9.5
ri residuos y a partir de allí
9
(x i , y^ i ) estimar los coeficientes Co
8.5
y C1 que hacen que la suma
8
se aproxime lo más posible
Year
a cero!
N
Concretamente queremos encontrar los Co y
C1 que minimizan la siguiente sumatoria:
∑ |r i|→0
i=1
∑ |r i|→0
i=1
En este caso sin embargo, observamos que
con la condición de la magnitud, múltiples
líneas pueden satisfacer el mismo criterio de
minimización y por lo tanto una única
solución no existe como se muestra en la
siguiente figura:
(x i , y i )
10
cuadrado de todos los
9.5
ri residuos y a partir de allí
9
(x i , y^ i ) estimar los coeficientes Co
8.5
y C1 que hacen que la suma
8
se aproxime lo más posible
Year
a cero!
(x i , y i )
10
cuadrado de todos los
9.5
ri residuos y a partir de allí
9
(x i , y^ i ) estimar los coeficientes Co
8.5
y C1 que hacen que la suma
8
se aproxime lo más posible
Year
a cero!
N
Concretamente queremos encontrar los Co y 2
r
∑ i →0
C1 que minimizan la siguiente sumatoria: i=1
(x i , y i )
10
permite encontrar los
9.5
ri coeficientes de la recta
9
(x i , y^ i ) que mejor representa la
8.5
tendencia de los puntos
8
observados!
Year
N
Concretamente queremos encontrar los Co y 2
r
∑ i →0
C1 que minimizan la siguiente sumatoria: i=1
(x i , y i )
10 como la suma de residuos
9.5
ri cuadrados (SSR por sus
9 siglas en inglés):
(x i , y^ i )
8.5
8
N
SSR=∑ r 2i → 0
Year
i=1
(x i , y i )
10 como la suma de residuos
9.5
ri cuadrados (SSR por sus
9 siglas en inglés):
(x i , y^ i )
8.5
8
N
SSR=∑ r 2i → 0
Year
i=1
(x i , y i )
10 como la suma de residuos
9.5
ri cuadrados (SSR por sus
9 siglas en inglés):
(x i , y^ i )
8.5
8
N
SSR=∑ r 2i → 0
Year
i=1
N
SSR=∑ r 2i
i=1
N N
2 2
SSR=∑ r i ∑ [ y^ i− yi ]
i=1 i=1
N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1
N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1
N
2
∑ [ y^ i−C 1 xi−C 0 ]
i=1
N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1
N
2 Queremos entonces encontrar los Co
∑ [ y^ i−C 1 xi−C 0 ] y C1 que minimizan esta ecuación!
i=1
N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1
N
2 Queremos entonces encontrar los Co
∑ [ y^ i−C 1 xi−C 0 ] y C1 que minimizan esta ecuación!
i=1
N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1
N
2 Queremos entonces encontrar los Co
∑ [ y^ i−C 1 xi−C 0 ] y C1 que minimizan esta ecuación!
i=1
N
2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
Para ello derivamos con respecto a
=0
d C0
Co y C1 e igualamos a cero
N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1
N
2 Queremos entonces encontrar los Co
∑ [ y^ i−C 1 xi−C 0 ] y C1 que minimizan esta ecuación!
i=1
N
2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
Para ello derivamos con respecto a
=0
d C0
N
Co y C1 e igualamos a cero 2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
=0
d C1
Regresión Lineal – Método de mínimos cuadrados
Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
=0
d C0
N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i
i=1 i=1 i=1
N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1
N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1
N
2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
=0
d C1
N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N
i=1
=0 ∑ −2 xi [ y^ i−C 1 xi−C 0 ] =0
d C1 i=1
N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N
i=1
=0 ∑ −2 xi [ y^ i−C 1 xi−C 0 ] =0
d C1 i=1
N N N
2
∑ C 0 x i+ ∑ C 1 x =∑ xi y^ i
i
i=1 i=1 i=1
N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N
i=1
=0 ∑ −2 xi [ y^ i−C 1 xi−C 0 ] =0
d C1 i=1
N N N N N N
2 2
∑ C 0 x i+ ∑ C 1 x =∑ xi y^ i
i C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i ( II )
i=1 i=1 i=1 i=1 i=1 i=1
N N
C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1
N N N
C 0 ∑ x i +C 1 ∑ x 2i =∑ x i y^ i
i=1 i=1 i=1
N N
C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
lados por 1/N:
N N N
C 0 ∑ x i +C 1 ∑ x 2i =∑ x i y^ i
i=1 i=1 i=1
N N N N
C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
[
C 0 +C 1
1
∑
N i=1
x i
][
=
1
∑
N i=1
y^ i
]
lados por 1/N:
N N N N N N
i=1 i=1
2
C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i
i=1
C0
[
1
∑
N i=1
x i +C 1
]
1
∑
N i=1
x 2
i =
1
∑
N i=1
x i y^ i
N N N N
C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
[
C 0 +C 1
1
∑
N i=1
x i
][
=
1
∑
N i=1
y^ i
]
lados por 1/N:
N N N N N N
i=1 i=1
2
C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i
N
i=1
C0
[
1
∑
N i=1
x i +C 1
]
1
∑
N i=1
x 2
i =
1
∑
N i=1
x i y^ i
1
Definiendo: x̄= ∑ x i
N i=1
N N N N
C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
[
C 0 +C 1
1
∑
N i=1
x i
][
=
1
∑
N i=1
y^ i
]
lados por 1/N:
N N N N N N
i=1 i=1
2
C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i
N
i=1
N
C0
[
1
∑
N i=1
x i +C 1
]
1
∑
N i=1
x 2
i =
1
∑
N i=1
x i y^ i
1 1
Definiendo: x̄= ∑ x i y ȳ= ∑ y^ i
N i=1 N i=1
N N N N
C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
[
C 0 +C 1
1
∑
N i=1
x i
][
=
1
∑
N i=1
y^ i
]
lados por 1/N:
N N N N N N
i=1 i=1
2
C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i
N
i=1
N
C0
[
1
∑
N i=1
x i +C 1
]
1
∑
N i=1
x 2
i =
1
∑
N i=1
x i y^ i
1 1
Definiendo: x̄= ∑ x i y ȳ= ∑ y^ i como las correspondientes medias de
N i=1 N i=1 los puntos observados en x y y
respectivamente.
C 0 +C 1 x̄= ȳ
N N
C 0 x̄ +C 1
[1
∑
N i=1 ] 1
x 2i = ∑ x i y^ i
N i=1
Podemos igualmente
representar este
conjunto de ecuaciones
de forma matricial de la
siguiente forma:
Podemos igualmente 1 x̄ C0 ȳ
representar este
conjunto de ecuaciones
de forma matricial de la
siguiente forma:
[ [ ]] [ ] [ ]
x̄
1
∑
N
x
N i=1 i
2
*
C1
=
1
∑
N
N i=1
x i y^ i
10.5
10
9.5
8.5
Year
Fuente: https://ourworldindata.org/smoking
10.5
2000 9.29
10 2001 9.1
2002 9.02
9.5 2003 9.2
9 2004 9.18
2005 9.19
8.5 2006 9.26
2007 9.17
8
2008 9.12
2009 9.06
2010 8.96
Year 2011 8.86
2012 8.79
2013 8.69
Fuente: https://ourworldindata.org/smoking
2014 8.59
2015 8.47
2016 8.38
2017 8.3
10.5
2000 9.29
10 2001 9.1
2002 9.02
9.5 2003 9.2
9 2004 9.18
2005 9.19
8.5 2006 9.26
2007 9.17
8
2008 9.12
2009 9.06
2010 8.96
Year 2011 8.86
2012 8.79
2013 8.69
Fuente: https://ourworldindata.org/smoking
2014 8.59
2015 8.47
2016 8.38
veamos en Python... 2017 8.3
veamos...
N
2
( y
∑ i i
^ − y )
R 2 =1− i=1
N
∑ ( y^ i− ȳi )2
i=1
veamos en Python...
∑ ( xi− x̄)( y^ i− ȳ )
C 1 = i=1 N donde el numerador corresponde a
∑ ( xi− x̄i)2 la covarianza entre el conjunto de
i=1
los datos observados (xi, ŷi) y el
denominador a la varianza de xi.