Está en la página 1de 35

Introducción métodos de Machine Learning Supervisado

Regresión Lineal

Andrea Canals
Magister en Bioestadística

ESCUELA INTERNACIONAL DE VERANO 2021


Regresión Lineal Simple

▪ Se asume que existe una relación lineal entre una variable


predictora X y una variable respuesta Y.

▪ El coeficiente 𝛽0 corresponde al intercepto y 𝛽1 a la pendiente de


la recta.

▪ Una vez que se hayan estimado los coeficientes del modelo con
la base de datos de entrenamiento, se pueden obtener los
valores predichos de Y.

ESCUELA INTERNACIONAL DE VERANO 2021


Estimación de los coeficientes

▪ Método de mínimos cuadrados

ESCUELA INTERNACIONAL DE VERANO 2021


Estimación de los coeficientes

▪ Método de mínimos cuadrados

Se buscan los valores de 𝛽0 y 𝛽1 que minimicen la Suma de


Cuadrados del Error (SCE o RSS, en inglés).

Con 𝑒𝑖 = 𝑦𝑖 − 𝑦ෝ𝑖 = 𝑦𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 ) (residuos).

ESCUELA INTERNACIONAL DE VERANO 2021


Supuestos

1. Existencia: Para cada valor fijo de X, Y tiene cierta distribución con


media μY/X y varianza σ2Y/X

2. Independencia: Los valores de Y son independientes unos de otros.


Los errores aleatorios también.

3. Linealidad: La media de Y (μY/X) es una función lineal de X.

4. Homocedasticidad: La varianza de Y es la misma para cada valor de


X. σ2Y/X = σ2

5. Normalidad: Para cada valor de X, Y tiene distribución normal.


Y/X~N(μY/X,σ2)
εi~N(0,σ2)

FACULTAD DE MEDICINA UNIVERSIDAD DE CHILE


Inferencia sobre los coeficientes
Modelo:

Intervalos de confianza:

Estimación de 𝜎 2 :

Cuadrados Medios del Error (CME o RSS, en inglés)=SCE/(n-2)

Estimación de 𝜎 : Error Estándar Residual (RSE)

ESCUELA INTERNACIONAL DE VERANO 2021


Inferencia sobre los coeficientes

Test de hipótesis para 𝛽1

Estadístico:

cuya distribución es T de Student con (n-2) grados de libertad.

ESCUELA INTERNACIONAL DE VERANO 2021


Inferencia sobre los coeficientes

ESCUELA INTERNACIONAL DE VERANO 2021


Ajuste del Modelo

▪ Error Estándar Residual(RSE)

▪ R2

▪ Estadístico F

ESCUELA INTERNACIONAL DE VERANO 2021


Regresión Lineal Múltiple

▪ Modelo:

▪ Estimación coeficientes:

▪ Estadístico F:

ESCUELA INTERNACIONAL DE VERANO 2021


Variables dummy

▪ Cuando una de las variables predictoras corresponde a una


variable categórica, se utilizan variables que usualmente
toman los valores 0 y 1.

▪ Si la variable tiene k categorías, en el modelo se incluyen


(k-1) variables dummy.

▪ Ejemplo:

ESCUELA INTERNACIONAL DE VERANO 2021


Variables dummy

▪ Ejemplo:

ESCUELA INTERNACIONAL DE VERANO 2021


Extensiones del modelo de regresión lineal

Al ajustar un modelo de regresión lineal se asume que la relación entre


X e Y es lineal y aditiva.

• Lineal: el cambio en Y por cada unidad de aumento en X es siempre


el mismo.

• Aditiva: el efecto de uno de los predictores en Y, es independiente de


los valores del resto de las variables predictoras.

ESCUELA INTERNACIONAL DE VERANO 2021


Extensiones del modelo de regresión lineal

Eliminación supuesto de aditividad

Para permitir un efecto multiplicativo podemos incorporar variables de


interacción al modelo, las que se construyen como el producto entre
dos variables predictoras.

Ejemplo:

con

* con este cambio permitimos que el efecto de X1 en Y, varíe


dependiendo del valor de X2.

ESCUELA INTERNACIONAL DE VERANO 2021


Extensiones del modelo de regresión lineal

Eliminación supuesto de aditividad

ESCUELA INTERNACIONAL DE VERANO 2021


Extensiones del modelo de regresión lineal

Eliminación supuesto de aditividad

ESCUELA INTERNACIONAL DE VERANO 2021


Extensiones del modelo de regresión lineal
Relaciones no lineales

Para permitir relaciones no lineales podemos realizar una regresión


polinomial.

ESCUELA INTERNACIONAL DE VERANO 2021


Potenciales problemas

▪ No linealidad en la relación entre X e Y

▪ Errores correlacionados

▪ Heterocedasticidad (varianza de los errores no constante)

▪ Outliers (valores extremos)

▪ Valores influyentes (alto “leverage”)

▪ Colinealidad

ESCUELA INTERNACIONAL DE VERANO 2021


No linealidad
• Si la relación entre las variables predictoras e Y es realmente
lineal, al graficar la relación entre los residuos y cada variable
predictora (o entre los residuos y los valores predichos de Y), no
se debiera observar ningún patrón.

• Posibles solución: realizar transformaciones a la variable


predictora (log 𝑋 , 𝑋 2 , 𝑋).

ESCUELA INTERNACIONAL DE VERANO 2021


Errores correlacionados

• Esto se puede observar en datos correspondientes a series de


tiempo, y se puede detectar graficando los valores de los
residuos en función del tiempo.

• Si existe correlación entre los residuos, residuos adyacentes


tendrán valores similares.

• También se puede observar al seleccionar individuos que sean


familiares, o que compartan ciertas variables que pudiesen incidir
en la relación que se está estudiando.

ESCUELA INTERNACIONAL DE VERANO 2021


Errores correlacionados

ESCUELA INTERNACIONAL DE VERANO 2021


Heterocedasticidad

▪ Si existe homocedasticidad, al graficar los residuos versus los


valores predichos, la variabilidad de los errores debiera ser similar
para distintos valores de 𝑦.

▪ Posible solución: transformar la variable respuesta Y: log 𝑌 , 𝑌

▪ Posible solución: método de mínimos cuadrados ponderados.

ESCUELA INTERNACIONAL DE VERANO 2021


Heterocedasticidad

ESCUELA INTERNACIONAL DE VERANO 2021


Outliers

▪ Un outlier corresponde a una observación cuyo valor predicho se


aleja mucho de su valor real.

▪ Pueden deberse a errores de registro, o ser valores reales.

▪ Pueden afectar al modelo estimado y al valor de RSE.

Modelo con outlier: RSE=1,09, R2=80,5%


Modelo sin outlier: RSE=0,77, R2=89,2%
ESCUELA INTERNACIONAL DE VERANO 2021
Valores influyentes

▪ Son observaciones con valores inusuales de X.

▪ Se pueden detectar fácilmente en el caso de una regresión lineal


simple, pero para una regresión lineal múltiple es más complejo.

▪ Estadístico “leverage”

Si hi>(p+1)/n se considera valor influyente.

ESCUELA INTERNACIONAL DE VERANO 2021


Valores influyentes

ESCUELA INTERNACIONAL DE VERANO 2021


Colinealidad

▪ Se produce cuando las variables predictores se encuentran


relacionadas entre sí.

▪ Reduce la precisión de las estimaciones debido al aumento en los


errores estándar de los coeficientes.

▪ Se puede detectar observando la matriz de correlaciones entre


las variables predictoras.

▪ Factor de Inflación de la Varianza (VIF)

𝑅𝑋2𝑗/𝑋𝑗−1 corresponde al R2 de la regresión de Xj en función del


resto de los predictores.

Si 𝑅𝑋2𝑗 /𝑋𝑗−1 es cercano a 1, VIF tomará valores altos.

ESCUELA INTERNACIONAL DE VERANO 2021


Colinealidad

ESCUELA INTERNACIONAL DE VERANO 2021


Comparación Regresión Lineal y KNN
▪ Regresión lineal:
o Método paramétrico
o Pocos parámetros a estimar
o Fácil de interpretar
o Muchos supuestos

▪ Regresión KNN:
o Método no paramétrico (mayor flexibilidad)
o Dado un valor de K y una observación de prueba x0, detecta las K
observaciones de entrenamiento más próximas de x0, representado por N0.
o Estima f(x0) como el promedio de todos los valores de Y de las observaciones
que pertenecen a N0.

ESCUELA INTERNACIONAL DE VERANO 2021


Comparación Regresión Lineal y KNN

ESCUELA INTERNACIONAL DE VERANO 2021


Comparación Regresión Lineal y KNN

ESCUELA INTERNACIONAL DE VERANO 2021


Comparación Regresión Lineal y KNN

ESCUELA INTERNACIONAL DE VERANO 2021


Comparación Regresión Lineal y KNN

ESCUELA INTERNACIONAL DE VERANO 2021


Comparación Regresión Lineal y KNN

ESCUELA INTERNACIONAL DE VERANO 2021


Comparación Regresión Lineal y KNN

▪ Métodos paramétricos superan a los no paramétricos, cuando


existen pocas observaciones por predictor.

▪ Si la relación entre X e Y es lineal (o cercana a la linealidad), la


regresión lineal tendrá menores errores que la regresión KNN.

▪ Cuando la relación entre X e Y se aleja de la linealidad, se


obtendrán menores errores con la regresión KNN.

ESCUELA INTERNACIONAL DE VERANO 2021

También podría gustarte