Regresión Lineal

Introducción métodos de Machine Learning Supervisado
Regresión Lineal
Andrea Canals
Magister en Bioestadística
ESCUELA INTERNACIONAL DE VERANO 2021

Regresión Lineal Simple
▪ Se asume que existe una relación lineal entre una variable

predictora X y una variable respuesta Y.
▪ El coeficiente 𝛽0 corresponde al intercepto y 𝛽1 a la pendiente de

la recta.
▪ Una vez que se hayan estimado los coeficientes del modelo con
la base de datos de entrenamiento, se pueden obtener los
valores predichos de Y.

Estimación de los coeficientes
▪ Método de mínimos cuadrados

Estimación de los coeficientes
▪ Método de mínimos cuadrados
Se buscan los valores de 𝛽0 y 𝛽1 que minimicen la Suma de

Cuadrados del Error (SCE o RSS, en inglés).
Con 𝑒𝑖 = 𝑦𝑖 − 𝑦ෝ𝑖 = 𝑦𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 ) (residuos).

Supuestos
1. Existencia: Para cada valor fijo de X, Y tiene cierta distribución con

media μY/X y varianza σ2Y/X
2. Independencia: Los valores de Y son independientes unos de otros.

Los errores aleatorios también.
3. Linealidad: La media de Y (μY/X) es una función lineal de X.
4. Homocedasticidad: La varianza de Y es la misma para cada valor de

X. σ2Y/X = σ2
5. Normalidad: Para cada valor de X, Y tiene distribución normal.

Y/X~N(μY/X,σ2)
εi~N(0,σ2)
FACULTAD DE MEDICINA UNIVERSIDAD DE CHILE

Inferencia sobre los coeficientes
Modelo:
Intervalos de confianza:
Estimación de 𝜎 2 :
Cuadrados Medios del Error (CME o RSS, en inglés)=SCE/(n-2)
Estimación de 𝜎 : Error Estándar Residual (RSE)

Test de hipótesis para 𝛽1
Estadístico:
cuya distribución es T de Student con (n-2) grados de libertad.


Ajuste del Modelo
▪ Error Estándar Residual(RSE)
▪ R2
▪ Estadístico F

Regresión Lineal Múltiple
▪ Modelo:
▪ Estimación coeficientes:
▪ Estadístico F:

Variables dummy
▪ Cuando una de las variables predictoras corresponde a una

variable categórica, se utilizan variables que usualmente
toman los valores 0 y 1.
▪ Si la variable tiene k categorías, en el modelo se incluyen

(k-1) variables dummy.
▪ Ejemplo:

Variables dummy
▪ Ejemplo:

Extensiones del modelo de regresión lineal
Al ajustar un modelo de regresión lineal se asume que la relación entre

X e Y es lineal y aditiva.
• Lineal: el cambio en Y por cada unidad de aumento en X es siempre

el mismo.
• Aditiva: el efecto de uno de los predictores en Y, es independiente de

los valores del resto de las variables predictoras.

Eliminación supuesto de aditividad
Para permitir un efecto multiplicativo podemos incorporar variables de

interacción al modelo, las que se construyen como el producto entre
dos variables predictoras.
Ejemplo:
con
* con este cambio permitimos que el efecto de X1 en Y, varíe

dependiendo del valor de X2.



Relaciones no lineales
Para permitir relaciones no lineales podemos realizar una regresión

polinomial.

Potenciales problemas
▪ No linealidad en la relación entre X e Y
▪ Errores correlacionados
▪ Heterocedasticidad (varianza de los errores no constante)
▪ Outliers (valores extremos)
▪ Valores influyentes (alto “leverage”)
▪ Colinealidad

No linealidad
• Si la relación entre las variables predictoras e Y es realmente
lineal, al graficar la relación entre los residuos y cada variable
predictora (o entre los residuos y los valores predichos de Y), no
se debiera observar ningún patrón.
• Posibles solución: realizar transformaciones a la variable

predictora (log 𝑋 , 𝑋 2 , 𝑋).

Errores correlacionados
• Esto se puede observar en datos correspondientes a series de

tiempo, y se puede detectar graficando los valores de los
residuos en función del tiempo.
• Si existe correlación entre los residuos, residuos adyacentes

tendrán valores similares.
• También se puede observar al seleccionar individuos que sean

familiares, o que compartan ciertas variables que pudiesen incidir
en la relación que se está estudiando.

Errores correlacionados

Heterocedasticidad
▪ Si existe homocedasticidad, al graficar los residuos versus los

valores predichos, la variabilidad de los errores debiera ser similar
para distintos valores de 𝑦.
ො
▪ Posible solución: transformar la variable respuesta Y: log 𝑌 , 𝑌
▪ Posible solución: método de mínimos cuadrados ponderados.

Heterocedasticidad

Outliers
▪ Un outlier corresponde a una observación cuyo valor predicho se

aleja mucho de su valor real.
▪ Pueden deberse a errores de registro, o ser valores reales.
▪ Pueden afectar al modelo estimado y al valor de RSE.
Modelo con outlier: RSE=1,09, R2=80,5%

Modelo sin outlier: RSE=0,77, R2=89,2%
Valores influyentes
▪ Son observaciones con valores inusuales de X.
▪ Se pueden detectar fácilmente en el caso de una regresión lineal

simple, pero para una regresión lineal múltiple es más complejo.
▪ Estadístico “leverage”
Si hi>(p+1)/n se considera valor influyente.

Valores influyentes

Colinealidad
▪ Se produce cuando las variables predictores se encuentran

relacionadas entre sí.
▪ Reduce la precisión de las estimaciones debido al aumento en los

errores estándar de los coeficientes.
▪ Se puede detectar observando la matriz de correlaciones entre

las variables predictoras.
▪ Factor de Inflación de la Varianza (VIF)
𝑅𝑋2𝑗/𝑋𝑗−1 corresponde al R2 de la regresión de Xj en función del

resto de los predictores.
Si 𝑅𝑋2𝑗 /𝑋𝑗−1 es cercano a 1, VIF tomará valores altos.

Colinealidad

Comparación Regresión Lineal y KNN
▪ Regresión lineal:
o Método paramétrico
o Pocos parámetros a estimar
o Fácil de interpretar
o Muchos supuestos
▪ Regresión KNN:
o Método no paramétrico (mayor flexibilidad)
o Dado un valor de K y una observación de prueba x0, detecta las K
observaciones de entrenamiento más próximas de x0, representado por N0.
o Estima f(x0) como el promedio de todos los valores de Y de las observaciones
que pertenecen a N0.






▪ Métodos paramétricos superan a los no paramétricos, cuando

existen pocas observaciones por predictor.
▪ Si la relación entre X e Y es lineal (o cercana a la linealidad), la

regresión lineal tendrá menores errores que la regresión KNN.
▪ Cuando la relación entre X e Y se aleja de la linealidad, se

obtendrán menores errores con la regresión KNN.

Regresión Lineal

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión Lineal

Cargado por

Copyright:

Formatos disponibles

Introducción métodos de Machine Learning Supervisado

ESCUELA INTERNACIONAL DE VERANO 2021

▪ Se asume que existe una relación lineal entre una variable

▪ El coeficiente 𝛽0 corresponde al intercepto y 𝛽1 a la pendiente de

ESCUELA INTERNACIONAL DE VERANO 2021

▪ Método de mínimos cuadrados

ESCUELA INTERNACIONAL DE VERANO 2021

▪ Método de mínimos cuadrados

Se buscan los valores de 𝛽0 y 𝛽1 que minimicen la Suma de

Con 𝑒𝑖 = 𝑦𝑖 − 𝑦ෝ𝑖 = 𝑦𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 ) (residuos).

ESCUELA INTERNACIONAL DE VERANO 2021

1. Existencia: Para cada valor fijo de X, Y tiene cierta distribución con

2. Independencia: Los valores de Y son independientes unos de otros.

3. Linealidad: La media de Y (μY/X) es una función lineal de X.

4. Homocedasticidad: La varianza de Y es la misma para cada valor de

5. Normalidad: Para cada valor de X, Y tiene distribución normal.

FACULTAD DE MEDICINA UNIVERSIDAD DE CHILE

Cuadrados Medios del Error (CME o RSS, en inglés)=SCE/(n-2)

Estimación de 𝜎 : Error Estándar Residual (RSE)

ESCUELA INTERNACIONAL DE VERANO 2021

Test de hipótesis para 𝛽1

cuya distribución es T de Student con (n-2) grados de libertad.

ESCUELA INTERNACIONAL DE VERANO 2021

ESCUELA INTERNACIONAL DE VERANO 2021

▪ Error Estándar Residual(RSE)

ESCUELA INTERNACIONAL DE VERANO 2021

ESCUELA INTERNACIONAL DE VERANO 2021

▪ Cuando una de las variables predictoras corresponde a una

▪ Si la variable tiene k categorías, en el modelo se incluyen

ESCUELA INTERNACIONAL DE VERANO 2021

ESCUELA INTERNACIONAL DE VERANO 2021

Al ajustar un modelo de regresión lineal se asume que la relación entre

• Lineal: el cambio en Y por cada unidad de aumento en X es siempre

• Aditiva: el efecto de uno de los predictores en Y, es independiente de

ESCUELA INTERNACIONAL DE VERANO 2021

Eliminación supuesto de aditividad

Para permitir un efecto multiplicativo podemos incorporar variables de

* con este cambio permitimos que el efecto de X1 en Y, varíe

ESCUELA INTERNACIONAL DE VERANO 2021

Eliminación supuesto de aditividad

ESCUELA INTERNACIONAL DE VERANO 2021

Eliminación supuesto de aditividad

ESCUELA INTERNACIONAL DE VERANO 2021

Para permitir relaciones no lineales podemos realizar una regresión

ESCUELA INTERNACIONAL DE VERANO 2021

▪ No linealidad en la relación entre X e Y

▪ Heterocedasticidad (varianza de los errores no constante)

▪ Outliers (valores extremos)

▪ Valores influyentes (alto “leverage”)

ESCUELA INTERNACIONAL DE VERANO 2021

• Posibles solución: realizar transformaciones a la variable

ESCUELA INTERNACIONAL DE VERANO 2021

• Esto se puede observar en datos correspondientes a series de

• Si existe correlación entre los residuos, residuos adyacentes

• También se puede observar al seleccionar individuos que sean

ESCUELA INTERNACIONAL DE VERANO 2021

ESCUELA INTERNACIONAL DE VERANO 2021

▪ Si existe homocedasticidad, al graficar los residuos versus los

▪ Posible solución: transformar la variable respuesta Y: log 𝑌 , 𝑌

▪ Posible solución: método de mínimos cuadrados ponderados.

ESCUELA INTERNACIONAL DE VERANO 2021

ESCUELA INTERNACIONAL DE VERANO 2021