Está en la página 1de 22

Introducción al aprendizaje estadı́stico

Regresión lineal - Parte 2

Departamento de Matemática

FIQ - Basado en los slides del curso Introduction to machine learning de Hastie y
Tibshirani
Regresión lineal

Regresión lineal: es un método supervizado que modela la


dependencia de Y (continua) linealmente en las
predictoras X1 , . . . , Xp , es decir

Y = β0 + β1 X1 + · · · + βp Xp +  (1)
Xp
= β0 + βj Xj +  (2)
j=1
Pp
 es el error y E(Y |X = x) = fL (x) = β0 + j=1 βj xj , acá
x indica el vector x = (x1 , . . . , xp ).
La verdadera función de regresión E(Y |X = x) es lineal
en x
Regresión lineal tiene como objetivo estimar a fL (x): la
mejor aproximación lineal a la función de regresión
verdadera dados datos que siguen el modelo
Mejor aproximación lineal
Regresión lineal para datos de propaganda
(advertising data)
Descripción de los datos.
Regresión lineal para datos de propaganda
(advertising data)

Preguntas:
¿Hay una relación entre cuanto se gasta en propaganda y
ventas?
¿Cuán fuerte es la relación entre cuanto se gasta en
propaganda y ventas?
¿Qué media contribuye mas a las ventas?
¿Cuan precisa es la predicción para futuras ventas?
¿Es lineal la relación?
¿Hay sinergia entre los diferentes medios de propaganda?
Regresión lineal para datos de propaganda
(advertising data)

Preguntas:
Nuestro modelo es

Y = β0 + β1 X1 + β2 X2 + · · · + βp Xp + 
Interpretamos βj como el efecto promedio en Y cuando
Xj aumenta una unidad, manteniendo todos los otros
predictores fijos. En el caso de ventas (el ejemplo) el
modelo será

sales = β0 + β1 × TV + β2 × radio + β3 × newspaper + 


Interpretando los coeficientes

El escenario idear es cuando los predictores son no


correlacionados: un diseño balanceado
Cada coeficiente puede ser estimado y testeados
independientemente
Las interpretaciones tales como una unidad de cambio en
Xj está asociado con un cambio βj en Y , manteniendo las
otras variables fijas es posible.
Correlaciones entre los predictores causa problemas
La varianza de los coeficientes tiende a crecer, a veces
dramaticamente
Las interpretaciones son difı́ciles, cuando una Xj cambia,
cambia todo (las otras Xs en especial)
Deberı́a evitarse causalidad en estudios observacionales
Volviendo al ejemplo

sales = β0 + β1 × TV + β2 × radio + β3 × newspaper + 

El coeficiente β1 nos dice el cambio esperado en sales por


unidad de cambio en lo que se gasta en TV, suponiendo los
demas predictores fijos
Volviendo al ejemplo

sales = β0 + β1 × TV + β2 × radio + β3 × newspaper + 

El coeficiente β1 nos dice el cambio esperado en sales por


unidad de cambio en lo que se gasta en TV, suponiendo los
demas predictores fijos
Cuando estimamos los coeficientes (ya lo veremos mas
adelante) obtenemos:
Volviendo al ejemplo

sales = β0 + β1 × TV + β2 × radio + β3 × newspaper + 

El coeficiente β1 nos dice el cambio esperado en sales por


unidad de cambio en lo que se gasta en TV, suponiendo los
demas predictores fijos
Cuando estimamos los coeficientes (ya lo veremos mas
adelante) obtenemos:

Ası́, si dejamos fijo lo que se gaste en newspaper y radio, por


cada 1000 dolares mas gastado en propaganda de TV, las
ventas crecerán 1000 × 0.046 = 46 unidades
PERO . . .

Una firma pude no poder incrementar lo que gasta en TV sin


sacar fondos de lo que gasta en newspaper o radio.
¿Entonces?
PERO . . .

Una firma pude no poder incrementar lo que gasta en TV sin


sacar fondos de lo que gasta en newspaper o radio.
¿Entonces?

Otro ejemplo: Y = todo el dinero que tengo en mi bolsillo, X1 :


cantidad de monedas en mi bolsillo, X2 cantidad de monedas
de 2 pesos en mi bolsillo
La regresión Y = β0 + β2 X2 tiene β2 positivo seguro, pero
que pasa si agrego X1 al modelo.
Estimación en regresión múltiple . . .

Dado los estimadores β̂0 , β̂1 , . . . , β̂p , podemos hacer


predicciones usando la fórmula

ŷ = β̂0 + β̂1 x1 + β̂2 x2 + · · · + β̂p xp


¿ Cómo estimamos a β0 , β1 , . . . , βp ?. Minimizando la RSS
(suma cuadrado de los residuos)

n
X
RSS = (yi − ŷi )2
i=1
n
X
= (yi − β̂0 − β̂1 xi1 − β̂2 xi2 − · · · − β̂p xip )2
i=1

Se lo llama estimador de mı́nimos cuadrados


Mas detalles

Si llamamos
     
y1 x11 x12 ... x1p x̄1
n n
 y2   x21 x22 ... x2p   x̄2  1 X 1 X
y=
  X =   X̄ =
 . . .  x̄j = n
  xij ȳ = yi
...   ... ... ... ...  n
i=1 i=1
yn xn1 xn2 ... xnp x̄p

entonces si β̂ = (β̂1 , . . . , β̂p )T

β̂0 = ȳ − β̂ T x̄
β̂ = (X T X − nx̄x̄T )−1 X T (Y − ȳ1n )

donde 1n es un vector de n unos.


De donde sale?
Regresión
Volviendo al ejemplo

sales = β0 + β1 × TV + β2 × radio + β3 × newspaper + 


Siguiente parada: estudio de los residuos
Siguiente parada: estudio de los residuos
Outliers
Outliers

Suponemos que los residuos están bien...


¡Muchas gracias!
Liliana Forzani
liliana.forzani@gmail.com

También podría gustarte