Está en la página 1de 28

Introducción al Análisis de Regresión lineal simple y múltiple

Construyendo un modelo predictivo/interpretativo


El problema de regresión

Objetivo: Construir un predictor (Modelo) que a un registro de


observaciones X = ( 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑝 ) le asigne un valor medio
(Pronostico) para la variable respuesta Y.

𝑿𝒊 = (𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑝 ) Modelo ( f ) ෡
𝒀

Interpretación Predicción

• Construir una función f que relaciona a X con Y • f también se usa para predecir
valores desconocidos de Y.
• Caracterizar la función f y la interpretación de sus (Pronosticar)
parámetros permiten comprender el efeto de los
predictores sobre la variable respuesta Y.
El problema de regresión
El supuesto subyacente:
1. Existe un patrón regular de asociación (F) entre X y Y.
𝑌 = 𝐹 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑃 + 𝜀 2. El patrón ( F) es estable.
3. El patrón ( F ) no completamente aleatorio.
Componente sistemático, regular. Error aleatorio.
Estimable. Impredecible

𝐸 𝑌 = 𝐹 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑃
Valor medio de Y

El verdadero valor de Y es impredecible, pero si


podemos aproximarnos a su valor medio.
Ejemplo 1. Existe un patrón claro. Ejemplo 2. Existe un ruido alto.
El problema de regresión
El objetivo:

Nuestro objetivo es aproximarnos a través de un


𝐸 𝑌 = 𝐹 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑃 modelo H al verdadero patrón F.

𝐸 𝑌 = 𝐹 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑃 ≅ 𝐻 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑃

Los modelo H pueden ser muchos y todos aproximados.

¿Cuales son esos modelos?


Modelos y Algoritmos de Predicción

¿Cual modelo escoger?


Análisis de Regresión
Una introducción a partir de un caso de ejemplo.
Caso de estudio: Boston (Librería: MASS)
Información recabada por el censo de USA en 506 vecindarios alrededor de la ciudad de Boston. La variable
respuesta es medv (Mediana del valor de una vivienda) y se cuenta con información de 13 variables predictoras.

Objetivo: Construir un predictor para el


precio mediano de la vivienda de un
vecindario.
Análisis de regresión – El caso univariado
Objetivo: Evaluar/modelar la relación entre la variable respuesta (Y) y una variable predictora (X)

1. Diagrama de dispersión 2. Coeficiente de correlación

n (  xy ) − (  x )(  y )
r=
n ( )   ( )
  x − (  x )   n  y − (  y ) 

2 2 2 2

3. Test de hipótesis sobre el Coef. Correlación


𝑟 𝑛−2 Supuesto: X,Y
𝝆=𝟎 vs 𝝆 ≠ 𝟎, 𝝆 > 𝟎, 𝝆 < 𝟎 𝑇= ~𝑡(𝑛−2) son normales.
1− 𝑟2
Estadístico de prueba
Grafico de dispersión vs coeficiente de correlación

r = -0.047 r = 0.889

No existe
Relación ? Relación
Directa

r = -0.889
Relación Relación
Inversa No Lineal
r = 0.09
El modelo de Regresión Lineal Simple
Objetivo: Obtener la ecuación lineal que mejor aproxima la relación Y vs X

Y =  0 + 1 X + 
Es un modelo para el valor medio
Intercepto Pendiente de Y de una población con X = x

Parámetros de regresión

Interpretación:
• 𝛽0 : Valor promedio de Y cuando X=0.
• 𝛽1 : Magnitud del cambio en Y por cada
unidad de cambio en X.
Ajuste del modelo – Estimación de Parámetros
MCO: (Mínimos Cuadrados Ordinarios): Utiliza los datos disponibles (𝒚𝒊 , 𝒙𝒊 ) para encontrar la
combinación de valores que minimizan la suma de los cuadrados de los residuos.

eˆí = yi − yˆi Yˆi = ˆ0 + ˆ1 X i


Ecuación estimada de la recta

2
SCE = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2
= σ𝑛𝑖=1 𝑦𝑖 − 𝛽መ0 + 𝛽መ1 𝑋𝑖
Indicador de bondad de ajuste
Bondad de ajuste del modelo
2
1. Suma de cuadrados del error: SCE = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2
= σ𝑛𝑖=1 𝑦𝑖 − 𝛽መ0 + 𝛽መ1 𝑋𝑖

𝑛 2
2. Varianza residual: 2
σ𝑖=1 𝑦𝑖 − 𝑦
ො𝑖
𝜎ො =
2

3. 𝑹𝟐 (Coeficiente de determinación) SCT = SCR + SCE


𝑛 𝑛 𝑛
2 2 2
෍ 𝑦𝑖 − 𝑦ത = ෍ 𝑦ො𝑖 − 𝑦ത + ෍ 𝑦𝑖 − 𝑦ො𝑖
𝑖=1 𝑖=1 𝑖=1

𝑆𝐶𝑅 % de la variabilidad de Y
𝑅2 = 0 ≤ 𝑅2 ≤ 1
𝑆𝐶𝑇 explicada por el modelo.
Bondad de ajuste del modelo

4. Análisis de Varianza → ¿El modelo aporta significativamente a explicar la variabilidad de Y?

𝐻0 : El modelo 𝐍𝐎 contribuye a explicar Y 𝐻1 : El modelo 𝐒𝐈 contribuye a explicar Y


𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0 𝐻1 : 𝛽𝑗 ≠ 0

➢ Si se rechaza Ho (valor-p ≤ α ) se concluye que existe una cantidad significativa de variación en Y que es
explicada a través del modelo formulado.

➢ Si se acepta Ho (valor-p > α ) se concluye que el modelo propuesto no se ajusta a los datos.
Inferencia sobre los parámetros del modelo
Validación de supuestos – Análisis de residuos
Explorando el termino error del modelo
Residuos
Validación de supuestos – Análisis de residuos
Validación de supuestos – Análisis de residuos
Validación de supuestos – Análisis de residuos
Validación de supuestos – Análisis de residuos
Relaciones no-lineales
Regresión con predictores cualitativos
Usando variables Dummy
Predictores cualitativos
Para incluir un predictor cualitativo → Dicotomización (Varibales Dummy)

Ejemplo: Variable Binaria (X= A, B) 1 𝑠𝑖 𝑋 = 𝐴


𝑋∗ = ቊ Categoría de referencia
0 𝑠𝑖 𝑋 = 𝐵

El modelo con una variable cuantitativa X1 y una dicotómica X2


Regresión con múltiples predictores
El modelo de regresión lineal múltiple
Regresión lineal múltiple
Utiliza los datos de una matriz X, y un vector Y para encontrar el Hiperplano W que mejor reproduzca la
asociación con la variable respuesta Y.
Supuestos sobre el error:

✓ Media cero.
✓ Independencia.
✓ Homogeneidad de varianzas.
Variables predictoras.
Coeficientes de la regresión.
Crudas o transformadas.
✓ Distribución Normal.

𝑴𝒊𝒏𝒊𝒎𝒊𝒛𝒂 ෍ 𝒆𝟐

ෝ𝒊 = 𝒘𝒊 = 𝜷𝟎 +𝜷𝟏 𝒙𝟏𝒊 +𝜷𝟐 𝒙𝟐𝒊 + ⋯ + 𝜷𝒑 𝒙𝒑𝒊


𝒚

Patologías:

Obs = 𝒙𝟏𝒊 , 𝒙𝟐𝒊 , … , 𝒙𝒑𝒊 ✓ Multicolinealidad


✓ Observaciones Influyentes.
Multicolinealidad
Cuando trabajamos con muchos predictores X, se corre el riesgo de que la información que contienen sea
redundante (alta correlación entre predictores). → Multicolinealidad.

¿Porque es un problema la multicolinealidad?

1. Las estimaciones de los parámetros son inestables. Ligeros cambios en los datos cambian notoriamente.
2. Los indicadores de bondad de ajuste son falsamente altos.

¿Algunos criterios para detectarla?

1. La matriz de correlación entre las variables predictoras. → Identifica pares de variables con alta asociación.
2. Factor de Inflación de Varianza (VIF)

¿Cómo prevenirla/corregirla?

1. Métodos de selección de variables.


2. Regresión Ridge – Regresión Lasso – Mínimos cuadrados parciales (PLS)
Medidas de Bondad del Ajuste de un modelo
Criterios de Selección de Modelos

𝐴𝐼𝐶 = 2𝑝 − 2𝐿𝑜𝑔 𝐿෠

Crece siempre al adicionar una Penaliza al R² por el número de Penaliza al la verosimilitud por el número
nueva variable predictora. parámetros. de parámetros. Mejor modelo (AIC más
bajo).

Compromiso entre la precisión y el sesgo.


Estrategia de selección de variables

También podría gustarte