Está en la página 1de 96

Regresión Lineal

David Henao
Mario Valderrama
Ingeniería Biomédica
Universidad de los Andes
Regresión Lineal – Método de mínimos cuadrados
Contexto
El gráfico mostrado a continuación presenta el porcentaje sobre
el número total de muertes atribuido al consumo de cigarrillo en
Colombia entre los años 1990 y 2017:

Regresión Lineal – Método de mínimos cuadrados


Contexto
El gráfico mostrado a continuación presenta el porcentaje sobre
el número total de muertes atribuido al consumo de cigarrillo en
Colombia entre los años 1990 y 2017:
11

10.5
Share of deaths from smoking (%)

10

9.5

8.5

Year

Fuente: https://ourworldindata.org/smoking

Regresión Lineal – Método de mínimos cuadrados


Contexto
El gráfico mostrado a continuación presenta el porcentaje sobre
el número total de muertes atribuido al consumo de cigarrillo en
Colombia entre los años 1990 y 2017:
11

10.5 Como se observa, el %


Share of deaths from smoking (%)

10
del número total de
9.5
muertes causadas por el
9

8.5
consumo de cigarrillo ha
8 disminuido, pasando de
10.62% en 1990 a 8.3% en
Year
2017.
Fuente: https://ourworldindata.org/smoking

Regresión Lineal – Método de mínimos cuadrados


Contexto
El gráfico mostrado a continuación presenta el porcentaje sobre
el número total de muertes atribuido al consumo de cigarrillo en
Colombia entre los años 1990 y 2017:
11

10.5
Sin embargo, podemos
Share of deaths from smoking (%)

10

9.5
apreciar que esa disminución
9 no se ha realizado a una
8.5
tasa constante sino que ha
8
variado a lo largo de los
Year
años.
Fuente: https://ourworldindata.org/smoking

Regresión Lineal – Método de mínimos cuadrados


Contexto
El gráfico mostrado a continuación presenta el porcentaje sobre
el número total de muertes atribuido al consumo de cigarrillo en
Colombia entre los años 1990 y 2017:
11

10.5 En particular, se puede observar


Share of deaths from smoking (%)

10 que hay intervalos para los


9.5
cuales la disminución se realizó a
un ritmo menor en comparación
9

8.5
a otros periodos con tasas de
8
reducción mayores (de 1996 a

Year
2001 por ejemplo).

Fuente: https://ourworldindata.org/smoking

Regresión Lineal – Método de mínimos cuadrados


Contexto
Ahora, supongamos que queremos encontrar la tasa de reducción promedio
que nos informe sobre la tendencia en la disminución del porcentaje de
muertes asociadas al consumo de cigarrillo entre el rango de años
mostrado.

Regresión Lineal – Método de mínimos cuadrados


Contexto
Ahora, supongamos que queremos encontrar la tasa de reducción promedio
que nos informe sobre la tendencia en la disminución del porcentaje de
muertes asociadas al consumo de cigarrillo entre el rango de años
mostrado.
Una posibilidad podría ser por ejemplo hallar las tasas de cambio
porcentual entre todos los pares de años consecutivos y calcular luego el
promedio entre todas ellas.

Regresión Lineal – Método de mínimos cuadrados


Contexto
Ahora, supongamos que queremos encontrar la tasa de reducción promedio
que nos informe sobre la tendencia en la disminución del porcentaje de
muertes asociadas al consumo de cigarrillo entre el rango de años
mostrado.
Una posibilidad podría ser por ejemplo hallar las tasas de cambio
porcentual entre todos los pares de años consecutivos y calcular luego el
promedio entre todas ellas.

Otra posibilidad podría ser hallar una línea de tendencia que represente el
conjunto de puntos observados y a partir de ésta estimar la tasa de
disminución como la pendiente de la recta.

Regresión Lineal – Método de mínimos cuadrados


Contexto
Ahora, supongamos que queremos encontrar la tasa de reducción promedio
que nos informe sobre la tendencia en la disminución del porcentaje de
muertes asociadas al consumo de cigarrillo entre el rango de años
mostrado.
Una posibilidad podría ser por ejemplo hallar las tasas de cambio
porcentual entre todos los pares de años consecutivos y calcular luego el
promedio entre todas ellas.

Otra posibilidad podría ser hallar una línea de tendencia que represente el
conjunto de puntos observados y a partir de ésta estimar la tasa de
disminución como la pendiente de la recta.

Este método se conoce como regresión lineal.

Regresión Lineal – Método de mínimos cuadrados


Contexto
Ahora, supongamos que queremos encontrar la tasa de reducción promedio
que nos informe sobre la tendencia en la disminución del porcentaje de
muertes asociadas al consumo de cigarrillo entre el rango de años
mostrado.
Una posibilidad podría ser por ejemplo hallar las tasas de cambio
porcentual entre todos los pares de años consecutivos y calcular luego el
promedio entre todas ellas.

Otra posibilidad podría ser hallar una línea de tendencia que represente el
conjunto de puntos observados y a partir de ésta estimar la tasa de
disminución como la pendiente de la recta.

Este método se conoce como regresión lineal.

veamos más en detalle...

Regresión Lineal – Método de mínimos cuadrados


Contexto

Consideremos la secuencia
de puntos ( x^i , y^ i )
representados en la gráfica
a continuación:

Regresión Lineal – Método de mínimos cuadrados


Contexto

Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5

Share of deaths from smoking (%)


representados en la gráfica 10
a continuación: 9.5

9
( x^i , y^ i )
8.5

Year

Regresión Lineal – Método de mínimos cuadrados


Contexto

Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5

Share of deaths from smoking (%)


representados en la gráfica 10
a continuación: 9.5

9
( x^i , y^ i )
Supongamos ahora que 8.5

queremos encontrar una línea 8

recta que mejor represente la


Year
tendencia seguida por todos
estos pares de puntos:

Regresión Lineal – Método de mínimos cuadrados


Contexto

Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5

Share of deaths from smoking (%)


representados en la gráfica 10
a continuación: 9.5

9
( x^i , y^ i )
Supongamos ahora que 8.5

queremos encontrar una línea 8

recta que mejor represente la


Year
tendencia seguida por todos
estos pares de puntos:

Regresión Lineal – Método de mínimos cuadrados


Contexto

Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5

Share of deaths from smoking (%)


representados en la gráfica 10
a continuación: 9.5

9
( x^i , y^ i )
Supongamos ahora que 8.5

queremos encontrar una línea 8

recta que mejor represente la


Year
tendencia seguida por todos
estos pares de puntos: Como observamos, la línea roja
corresponde a una recta que sigue la
tendencia de todos los puntos azules!

Regresión Lineal – Método de mínimos cuadrados


Contexto

Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5

Share of deaths from smoking (%)


representados en la gráfica 10
a continuación: 9.5

9
( x^i , y^ i )
Supongamos ahora que 8.5

queremos encontrar una línea 8

recta que mejor represente la


Year
tendencia seguida por todos
estos pares de puntos: Pero.. ¿cómo podemos obtener la
ecuación de esta recta?

Regresión Lineal – Método de mínimos cuadrados


Contexto

Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5

Share of deaths from smoking (%)


representados en la gráfica 10
a continuación: 9.5

9
( x^i , y^ i )
Supongamos ahora que 8.5

queremos encontrar una línea 8

recta que mejor represente la


Year
tendencia seguida por todos
estos pares de puntos: y además.. ¿cómo podemos asegurar que la
recta obtenida es aquella que mejor se ajusta
a la tendencia seguida por todos los puntos?

Regresión Lineal – Método de mínimos cuadrados


Contexto

Consideremos la secuencia
11
de puntos ( x^i , y^ i ) 10.5

Share of deaths from smoking (%)


representados en la gráfica 10
a continuación: 9.5

9
( x^i , y^ i )
Supongamos ahora que 8.5

queremos encontrar una línea 8

recta que mejor represente la


Year
tendencia seguida por todos
estos pares de puntos:
veamos...

Regresión Lineal – Método de mínimos cuadrados


Contexto
11

10.5
Share of deaths from smoking (%)

10

9.5

8.5

Year

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Supongamos que en nuestra
10.5
gráfica, todos los puntos
Share of deaths from smoking (%)

10
observados (puntos azules)
9.5
corresponden a la secuencia
9
de puntos:
8.5

8
(x i , y^ i ) para 1⩽i⩽N

donde N es el número total


Year
de puntos observados.

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Supongamos que en nuestra
10.5
gráfica, todos los puntos
Share of deaths from smoking (%)

10
(x 1, y^ 1 ) observados (puntos azules)
9.5 (x N , y^N )
corresponden a la secuencia
9
(x i , y^ i ) de puntos:
8.5

8
(x i , y^ i ) para 1⩽i⩽N

donde N es el número total


Year
de puntos observados.

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Supongamos ahora que
10.5
obtenemos la recta que
Share of deaths from smoking (%)

10
mejor representa la
9.5
tendencia de los puntos
9
(x i , y^ i ) observados, y que todos los
8.5
puntos sobre esta recta
8
(puntos rojos) constituyen
la secuencia:
Year

(x i , y i ) para 1⩽i⩽N

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Supongamos ahora que
10.5
obtenemos la recta que
Share of deaths from smoking (%)

(x i , y i )
10
mejor representa la
9.5
tendencia de los puntos
9
(x i , y^ i ) observados, y que todos los
8.5
puntos sobre esta recta
8
(puntos rojos) constituyen
la secuencia:
Year

(x i , y i ) para 1⩽i⩽N

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Vemos así que para un
10.5
mismo valor xi:
Share of deaths from smoking (%)

(x i , y i )
10

9.5

9
(x i , y^ i )
8.5

Year

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Vemos así que para un
10.5
mismo valor xi:
Share of deaths from smoking (%)

(x i , y i )
10

9.5
x i → y^ i Valor observado
9
(x i , y^ i )
8.5 xi → y i Valor sobre la recta
8

Year

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Vemos así que para un
10.5
mismo valor xi:
Share of deaths from smoking (%)

(x i , y i )
10

9.5
x i → y^ i Valor observado
9
(x i , y^ i )
8.5 xi → y i Valor sobre la recta
8

Year

Ahora, en la gráfica, la ecuación


que representa la recta roja se
puede escribir como:

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Vemos así que para un
10.5
mismo valor xi:
Share of deaths from smoking (%)

(x i , y i )
10

9.5
x i → y^ i Valor observado
9
(x i , y^ i )
8.5 xi → y i Valor sobre la recta
8

Year

y=C 1 x +C 0 Ahora, en la gráfica, la ecuación


que representa la recta roja se
puede escribir como:

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Vemos así que para un
10.5
mismo valor xi:
Share of deaths from smoking (%)

(x i , y i )
10

9.5
x i → y^ i Valor observado
9
(x i , y^ i )
8.5 xi → y i Valor sobre la recta
8

Year

y=C 1 x +C 0 Ahora, en la gráfica, la ecuación

donde C1 corresponde a la que representa la recta roja se


puede escribir como:
pendiente y Co al corte con el y.

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Definamos ahora el residuo ri
10.5
como la diferencia, para un
Share of deaths from smoking (%)

(x i , y i )
10
mismo punto xi, entre el
9.5
valor observado y el valor
9
(x i , y^ i ) sobre la recta:
8.5

8
r i = y^ i− y i
Year

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Definamos ahora el residuo ri
10.5
como la diferencia, para un
Share of deaths from smoking (%)

(x i , y i )
10
mismo punto xi, entre el
9.5
ri valor observado y el valor
9
(x i , y^ i ) sobre la recta:
8.5

8
r i = y^ i− y i
Year

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Definamos ahora el residuo ri
10.5
como la diferencia, para un
Share of deaths from smoking (%)

(x i , y i )
10
mismo punto xi, entre el
9.5
ri valor observado y el valor
9
(x i , y^ i ) sobre la recta:
8.5

8
r i = y^ i− y i
Year

Ahora, queremos encontrar nuestra recta de tendencia (recta roja)


como aquella que minimice los residuos ri para todos los puntos
observados!

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
En el caso límite, si todos
10.5
los residuos ri son cero,
Share of deaths from smoking (%)

(x i , y i )
10
entonces los puntos
9.5
ri observados corresponden
9
(x i , y^ i ) exactamente a los puntos
8.5
sobre la recta y en
8
consecuencia todos son co-

Year
lineales!

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
En el caso límite, si todos
10.5
los residuos ri son cero,
Share of deaths from smoking (%)

(x i , y i )
10
entonces los puntos
9.5
ri observados corresponden
9
(x i , y^ i ) exactamente a los puntos
8.5
sobre la recta y en
8
consecuencia todos son co-

Year
lineales!

Sin embargo, como generalmente este no es el caso, tenemos que definir


una medida que nos permita estimar qué tanto el conjunto de los puntos
observados se diferencia de los puntos sobre la recta buscada.

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Una posibilidad consiste en
10.5
estimar la suma de todos
Share of deaths from smoking (%)

(x i , y i )
10
los residuos y a partir de
9.5
ri allí estimar los coeficientes
9
(x i , y^ i ) Co y C1 que hacen que la
8.5
suma se aproxime lo más
8
posible a cero!

Year

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Una posibilidad consiste en
10.5
estimar la suma de todos
Share of deaths from smoking (%)

(x i , y i )
10
los residuos y a partir de
9.5
ri allí estimar los coeficientes
9
(x i , y^ i ) Co y C1 que hacen que la
8.5
suma se aproxime lo más
8
posible a cero!

Year

Concretamente queremos encontrar los Co y


C1 que minimizan la siguiente sumatoria:

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Una posibilidad consiste en
10.5
estimar la suma de todos
Share of deaths from smoking (%)

(x i , y i )
10
los residuos y a partir de
9.5
ri allí estimar los coeficientes
9
(x i , y^ i ) Co y C1 que hacen que la
8.5
suma se aproxime lo más
8
posible a cero!

Year

N
Concretamente queremos encontrar los Co y
C1 que minimizan la siguiente sumatoria:
∑ r i →0
i=1

Regresión Lineal – Método de mínimos cuadrados


Contexto

En este caso sin embargo, observamos que


los ri pueden ser tanto positivos como
negativos y que grandes desviaciones
positivas pueden anular grandes desviaciones
negativas produciendo una suma de residuos
cercana a cero, inclusive para rectas que se
ajustan de manera mediocre a la tendencia
de los puntos observados como se observa
en la siguiente figura:

Regresión Lineal – Método de mínimos cuadrados


Contexto

En este caso sin embargo, observamos que


N
los ri pueden ser tanto positivos como
negativos y que grandes desviaciones
∑ r i →0
i=1
positivas pueden anular grandes desviaciones
negativas produciendo una suma de residuos
cercana a cero, inclusive para rectas que se
ajustan de manera mediocre a la tendencia
de los puntos observados como se observa
en la siguiente figura:

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Otra posibilidad sería
10.5
estimar la suma de la
Share of deaths from smoking (%)

(x i , y i )
10
magnitud de todos los
9.5
ri residuos y a partir de allí
9
(x i , y^ i ) estimar los coeficientes Co
8.5
y C1 que hacen que la suma
8
se aproxime lo más posible

Year
a cero!

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Otra posibilidad sería
10.5
estimar la suma de la
Share of deaths from smoking (%)

(x i , y i )
10
magnitud de todos los
9.5
ri residuos y a partir de allí
9
(x i , y^ i ) estimar los coeficientes Co
8.5
y C1 que hacen que la suma
8
se aproxime lo más posible

Year
a cero!

N
Concretamente queremos encontrar los Co y
C1 que minimizan la siguiente sumatoria:
∑ |r i|→0
i=1

Regresión Lineal – Método de mínimos cuadrados


Contexto

En este caso sin embargo, observamos que


con la condición de la magnitud, múltiples
líneas pueden satisfacer el mismo criterio de
minimización y por lo tanto una única
solución no existe como se muestra en la
siguiente figura:

Regresión Lineal – Método de mínimos cuadrados


Contexto
N

∑ |r i|→0
i=1
En este caso sin embargo, observamos que
con la condición de la magnitud, múltiples
líneas pueden satisfacer el mismo criterio de
minimización y por lo tanto una única
solución no existe como se muestra en la
siguiente figura:

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Una posibilidad adicional es
10.5
estimar la suma del
Share of deaths from smoking (%)

(x i , y i )
10
cuadrado de todos los
9.5
ri residuos y a partir de allí
9
(x i , y^ i ) estimar los coeficientes Co
8.5
y C1 que hacen que la suma
8
se aproxime lo más posible

Year
a cero!

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
Una posibilidad adicional es
10.5
estimar la suma del
Share of deaths from smoking (%)

(x i , y i )
10
cuadrado de todos los
9.5
ri residuos y a partir de allí
9
(x i , y^ i ) estimar los coeficientes Co
8.5
y C1 que hacen que la suma
8
se aproxime lo más posible

Year
a cero!

N
Concretamente queremos encontrar los Co y 2
r
∑ i →0
C1 que minimizan la siguiente sumatoria: i=1

Regresión Lineal – Método de mínimos cuadrados


Contexto
11
En este caso obtenemos
10.5
una única solución que nos
Share of deaths from smoking (%)

(x i , y i )
10
permite encontrar los
9.5
ri coeficientes de la recta
9
(x i , y^ i ) que mejor representa la
8.5
tendencia de los puntos
8
observados!

Year

N
Concretamente queremos encontrar los Co y 2
r
∑ i →0
C1 que minimizan la siguiente sumatoria: i=1

Regresión Lineal – Método de mínimos cuadrados


Contexto
11

10.5 Esta sumatoria se conoce


Share of deaths from smoking (%)

(x i , y i )
10 como la suma de residuos
9.5
ri cuadrados (SSR por sus
9 siglas en inglés):
(x i , y^ i )
8.5

8
N
SSR=∑ r 2i → 0
Year
i=1

Regresión Lineal – Método de mínimos cuadrados


Contexto
11

10.5 Esta sumatoria se conoce


Share of deaths from smoking (%)

(x i , y i )
10 como la suma de residuos
9.5
ri cuadrados (SSR por sus
9 siglas en inglés):
(x i , y^ i )
8.5

8
N
SSR=∑ r 2i → 0
Year
i=1

y el procedimiento de minimización para


obtener los coeficientes como el método de
ajuste por mínimos cuadrados!

Regresión Lineal – Método de mínimos cuadrados


Contexto
11

10.5 Esta sumatoria se conoce


Share of deaths from smoking (%)

(x i , y i )
10 como la suma de residuos
9.5
ri cuadrados (SSR por sus
9 siglas en inglés):
(x i , y^ i )
8.5

8
N
SSR=∑ r 2i → 0
Year
i=1

y el procedimiento de minimización para


obtener los coeficientes como el método de veamos las ecuaciones!
ajuste por mínimos cuadrados!

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

N
SSR=∑ r 2i
i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

N N
2 2
SSR=∑ r i ∑ [ y^ i− yi ]
i=1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1

N
2
∑ [ y^ i−C 1 xi−C 0 ]
i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1

N
2 Queremos entonces encontrar los Co
∑ [ y^ i−C 1 xi−C 0 ] y C1 que minimizan esta ecuación!
i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1

N
2 Queremos entonces encontrar los Co
∑ [ y^ i−C 1 xi−C 0 ] y C1 que minimizan esta ecuación!
i=1

Para ello derivamos con respecto a


Co y C1 e igualamos a cero

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1

N
2 Queremos entonces encontrar los Co
∑ [ y^ i−C 1 xi−C 0 ] y C1 que minimizan esta ecuación!
i=1
N
2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
Para ello derivamos con respecto a
=0
d C0
Co y C1 e igualamos a cero

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

N N N
2 2 2
SSR=∑ r i ∑ [ y^ i− yi ] ∑ [ y^i−( C 1 xi +C 0 ) ]
i=1 i=1 i=1

N
2 Queremos entonces encontrar los Co
∑ [ y^ i−C 1 xi−C 0 ] y C1 que minimizan esta ecuación!
i=1
N
2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
Para ello derivamos con respecto a
=0
d C0
N
Co y C1 e igualamos a cero 2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
=0
d C1
Regresión Lineal – Método de mínimos cuadrados
Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
=0
d C0

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N
i=1
=0 ∑ −2 [ y^ i−C 1 xi−C 0 ] =0
d C0 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N N N N
i=1
=0 ∑ −2 [ y^ i−C 1 xi−C 0 ] =0 ∑ C 0+ ∑ C 1 xi=∑ y^ i
d C0 i=1 i=1 i=1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N N N N
i=1
=0 ∑ −2 [ y^ i−C 1 xi−C 0 ] =0 ∑ C 0+ ∑ C 1 xi=∑ y^ i
d C0 i=1 i=1 i=1 i=1

N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i
i=1 i=1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N N N N
i=1
=0 ∑ −2 [ y^ i−C 1 xi−C 0 ] =0 ∑ C 0+ ∑ C 1 xi=∑ y^ i
d C0 i=1 i=1 i=1 i=1

N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N N N N
i=1
=0 ∑ −2 [ y^ i−C 1 xi−C 0 ] =0 ∑ C 0+ ∑ C 1 xi=∑ y^ i
d C0 i=1 i=1 i=1 i=1

N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1

N
2
d ∑ [ y^ i −C 1 x i −C 0 ]
i=1
=0
d C1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N N N N
i=1
=0 ∑ −2 [ y^ i−C 1 xi−C 0 ] =0 ∑ C 0+ ∑ C 1 xi=∑ y^ i
d C0 i=1 i=1 i=1 i=1

N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1

N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N
i=1
=0 ∑ −2 xi [ y^ i−C 1 xi−C 0 ] =0
d C1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N N N N
i=1
=0 ∑ −2 [ y^ i−C 1 xi−C 0 ] =0 ∑ C 0+ ∑ C 1 xi=∑ y^ i
d C0 i=1 i=1 i=1 i=1

N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1

N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N
i=1
=0 ∑ −2 xi [ y^ i−C 1 xi−C 0 ] =0
d C1 i=1

N N N
2
∑ C 0 x i+ ∑ C 1 x =∑ xi y^ i
i
i=1 i=1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N N N N
i=1
=0 ∑ −2 [ y^ i−C 1 xi−C 0 ] =0 ∑ C 0+ ∑ C 1 xi=∑ y^ i
d C0 i=1 i=1 i=1 i=1

N N N N N
C 0 ∑ 1+C 1 ∑ x i =∑ y^ i C 0 N +C 1 ∑ x i =∑ y^ i (I )
i=1 i=1 i=1 i=1 i=1

N
2
d ∑ [ y^ i −C 1 x i −C 0 ] N
i=1
=0 ∑ −2 xi [ y^ i−C 1 xi−C 0 ] =0
d C1 i=1

N N N N N N
2 2
∑ C 0 x i+ ∑ C 1 x =∑ xi y^ i
i C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i ( II )
i=1 i=1 i=1 i=1 i=1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Reuniendo las ecuaciones (I) y (II):

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Reuniendo las ecuaciones (I) y (II):

N N
C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1

N N N
C 0 ∑ x i +C 1 ∑ x 2i =∑ x i y^ i
i=1 i=1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Reuniendo las ecuaciones (I) y (II):

N N
C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
lados por 1/N:
N N N
C 0 ∑ x i +C 1 ∑ x 2i =∑ x i y^ i
i=1 i=1 i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Reuniendo las ecuaciones (I) y (II):

N N N N

C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
[
C 0 +C 1
1

N i=1
x i
][
=
1

N i=1
y^ i
]
lados por 1/N:
N N N N N N

i=1 i=1
2
C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i
i=1
C0
[
1

N i=1
x i +C 1
]
1

N i=1
x 2
i =
1

N i=1
x i y^ i

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Reuniendo las ecuaciones (I) y (II):

N N N N

C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
[
C 0 +C 1
1

N i=1
x i
][
=
1

N i=1
y^ i
]
lados por 1/N:
N N N N N N

i=1 i=1
2
C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i

N
i=1
C0
[
1

N i=1
x i +C 1
]
1

N i=1
x 2
i =
1

N i=1
x i y^ i

1
Definiendo: x̄= ∑ x i
N i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Reuniendo las ecuaciones (I) y (II):

N N N N

C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
[
C 0 +C 1
1

N i=1
x i
][
=
1

N i=1
y^ i
]
lados por 1/N:
N N N N N N

i=1 i=1
2
C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i

N
i=1

N
C0
[
1

N i=1
x i +C 1
]
1

N i=1
x 2
i =
1

N i=1
x i y^ i

1 1
Definiendo: x̄= ∑ x i y ȳ= ∑ y^ i
N i=1 N i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Reuniendo las ecuaciones (I) y (II):

N N N N

C 0 N +C 1 ∑ x i =∑ y^ i
i=1 i=1 Multiplicando a ambos
[
C 0 +C 1
1

N i=1
x i
][
=
1

N i=1
y^ i
]
lados por 1/N:
N N N N N N

i=1 i=1
2
C 0 ∑ x i +C 1 ∑ x =∑ x i y^ i
i

N
i=1

N
C0
[
1

N i=1
x i +C 1
]
1

N i=1
x 2
i =
1

N i=1
x i y^ i

1 1
Definiendo: x̄= ∑ x i y ȳ= ∑ y^ i como las correspondientes medias de
N i=1 N i=1 los puntos observados en x y y
respectivamente.

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

C 0 +C 1 x̄= ȳ
N N
C 0 x̄ +C 1
[1

N i=1 ] 1
x 2i = ∑ x i y^ i
N i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Así, obtenemos un sistema de dos
C 0 +C 1 x̄= ȳ
ecuaciones lineales con dos incógnitas Co
N N
C 0 x̄ +C 1
[1

N i=1 ] 1
x 2i = ∑ x i y^ i
N i=1
y C1 que podemos resolver con algunos
de los métodos vistos tales como el
método de Gauss o Gauss-Jordan!

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Así, obtenemos un sistema de dos
C 0 +C 1 x̄= ȳ
ecuaciones lineales con dos incógnitas Co
N N
C 0 x̄ +C 1
[1

N i=1 ] 1
x 2i = ∑ x i y^ i
N i=1
y C1 que podemos resolver con algunos
de los métodos vistos tales como el
método de Gauss o Gauss-Jordan!

Podemos igualmente
representar este
conjunto de ecuaciones
de forma matricial de la
siguiente forma:

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Así, obtenemos un sistema de dos
C 0 +C 1 x̄= ȳ
ecuaciones lineales con dos incógnitas Co
N N
C 0 x̄ +C 1
[1

N i=1 ] 1
x 2i = ∑ x i y^ i
N i=1
y C1 que podemos resolver con algunos
de los métodos vistos tales como el
método de Gauss o Gauss-Jordan!

Podemos igualmente 1 x̄ C0 ȳ
representar este
conjunto de ecuaciones
de forma matricial de la
siguiente forma:
[ [ ]] [ ] [ ]

1

N
x
N i=1 i
2
*
C1
=
1

N

N i=1
x i y^ i

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

Retomemos ahora nuestro conjunto de datos sobre el porcentaje


del número total de muertes atribuido al consumo de cigarrillo en
Colombia entre los años 1990 y 2017 y encontremos la recta de
tendencia (regresión lineal) que mejor representa los puntos
observados siguiendo el método de mínimos cuadrados!

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

Gráfica de los puntos observados


11
Share of deaths from smoking (%)

10.5

10

9.5

8.5

Year

Fuente: https://ourworldindata.org/smoking

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados Year Smoking (IHME, 2019)
1990 10.62
1991 10.63

Datos numéricos: 1992


1993
10.61
10.5
1994 10.49
1995 10.44
Gráfica de los puntos observados 1996 10.4
1997 10.18
11 1998 9.89
1999 9.61
Share of deaths from smoking (%)

10.5
2000 9.29
10 2001 9.1
2002 9.02
9.5 2003 9.2
9 2004 9.18
2005 9.19
8.5 2006 9.26
2007 9.17
8
2008 9.12
2009 9.06
2010 8.96
Year 2011 8.86
2012 8.79
2013 8.69
Fuente: https://ourworldindata.org/smoking
2014 8.59
2015 8.47
2016 8.38
2017 8.3

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados Year Smoking (IHME, 2019)
1990 10.62
1991 10.63

Datos numéricos: 1992


1993
10.61
10.5
1994 10.49
1995 10.44
Gráfica de los puntos observados 1996 10.4
1997 10.18
11 1998 9.89
1999 9.61
Share of deaths from smoking (%)

10.5
2000 9.29
10 2001 9.1
2002 9.02
9.5 2003 9.2
9 2004 9.18
2005 9.19
8.5 2006 9.26
2007 9.17
8
2008 9.12
2009 9.06
2010 8.96
Year 2011 8.86
2012 8.79
2013 8.69
Fuente: https://ourworldindata.org/smoking
2014 8.59
2015 8.47
2016 8.38
veamos en Python... 2017 8.3

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Como vimos, la solución del sistema matricial nos
permite encontrar los coeficientes C0 y C1 que
describen la recta que mejor representa la tendencia
lineal de los puntos observados.

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Como vimos, la solución del sistema matricial nos
permite encontrar los coeficientes C0 y C1 que
describen la recta que mejor representa la tendencia
lineal de los puntos observados.

Una forma de estimar qué tan “buena” es esta


aproximación en relación a la tendencia de los puntos
observados es hallar el coeficiente de determinación.

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados
Como vimos, la solución del sistema matricial nos
permite encontrar los coeficientes C0 y C1 que
describen la recta que mejor representa la tendencia
lineal de los puntos observados.

Una forma de estimar qué tan “buena” es esta


aproximación en relación a la tendencia de los puntos
observados es hallar el coeficiente de determinación.

veamos...

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

El coeficiente de determinación R2 se define como:

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

El coeficiente de determinación R2 se define como:

N
2
( y
∑ i i
^ − y )
R 2 =1− i=1
N

∑ ( y^ i− ȳi )2
i=1

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

El coeficiente de determinación R2 se define como:

N donde: y^ i Valores observados


2
( y
∑ i i
^ − y )
Media de los valores
R 2 =1− i=1 ȳ i
N observados
∑ ( y^ i− ȳi )2 yi Valores sobre la recta
i=1
estimada

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

El coeficiente de determinación R2 se define como:

N donde: y^ i Valores observados


2
( y
∑ i i
^ − y )
Media de los valores
R 2 =1− i=1 ȳ i
N observados
∑ ( y^ i− ȳi )2 yi Valores sobre la recta
i=1
estimada

De manera general, el coeficiente de determinación compara la


mejora obtenida al modelar los datos observados con la recta
estimada en relación a una simple recta horizontal que pasa por la
media de los datos.

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

El coeficiente de determinación R2 se define como:

N donde: y^ i Valores observados


2
( y
∑ i i
^ − y )
Media de los valores
R 2 =1− i=1 ȳ i
N observados
∑ ( y^ i− ȳi )2 yi Valores sobre la recta
i=1
estimada

Si la suma del numerado es muy pequeña en relación a la del


denominador, es decir, si la recta obtenida es una mucho
mejor aproximación a los datos que el promedio, entonces R2
será cercano a 1.
Regresión Lineal – Método de mínimos cuadrados
Método de mínimos cuadrados

El coeficiente de determinación R2 se define como:

N donde: y^ i Valores observados


2
( y
∑ i i
^ − y )
Media de los valores
R 2 =1− i=1 ȳ i
N observados
∑ ( y^ i− ȳi )2 yi Valores sobre la recta
i=1
estimada

Por el contrario, si la aproximación con la recta obtenida


es comparable a la obtenida con la media, entonces R2
será cercano a 0.

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

El coeficiente de determinación R2 se define como:

N donde: y^ i Valores observados


2
( y
∑ i i
^ − y )
Media de los valores
R 2 =1− i=1 ȳ i
N observados
∑ ( y^ i− ȳi )2 yi Valores sobre la recta
i=1
estimada

Se quiere entonces que R2 sea muy cercano 1, lo cual


indica una buena aproximación!

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

El coeficiente de determinación R2 se define como:

N donde: y^ i Valores observados


2
( y
∑ i i
^ − y )
Media de los valores
R 2 =1− i=1 ȳ i
N observados
∑ ( y^ i− ȳi )2 yi Valores sobre la recta
i=1
estimada

Se quiere entonces que R2 sea muy cercano 1, lo cual


indica una buena aproximación!

veamos en Python...

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

Así, vemos que para nuestros datos obtenemos una


regresión lineal que nos indica una tendencia
aproximada de disminución del porcentaje de muertes
atribuido al consumo de cigarrillo en Colombia entre
los años 1990 y 2017 del 0.088 % por año.

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

Así, vemos que para nuestros datos obtenemos una


regresión lineal que nos indica una tendencia
aproximada de disminución del porcentaje de muertes
atribuido al consumo de cigarrillo en Colombia entre
los años 1990 y 2017 del 0.088 % por año.

Para esta regresión obtenemos un coeficiente de


determinación R2 de 0.9128 los cual nos indica que es
una buena aproximación!

Regresión Lineal – Método de mínimos cuadrados


Método de mínimos cuadrados

Así, vemos que para nuestros datos obtenemos una


regresión lineal que nos indica una tendencia
aproximada de disminución del porcentaje de muertes
atribuido al consumo de cigarrillo en Colombia entre
los años 1990 y 2017 del 0.088 % por año.

Para esta regresión obtenemos un coeficiente de


determinación R2 de 0.9128 los cual nos indica que es
una buena aproximación!
ahora...

Regresión Lineal – Método de mínimos cuadrados


Ejercicio
➢ Demuestre que el coeficiente C1 se
puede obtener también a través de la
siguiente fórmula:

∑ ( xi− x̄)( y^ i− ȳ )
C 1 = i=1 N donde el numerador corresponde a
∑ ( xi− x̄i)2 la covarianza entre el conjunto de
i=1
los datos observados (xi, ŷi) y el
denominador a la varianza de xi.

Regresión Lineal – Método de mínimos cuadrados

También podría gustarte