Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase Nº5 Regresion Lineal
Clase Nº5 Regresion Lineal
Profesores
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
1
Clase Nº5: Regresión Lineal
En esta clase estudiaremos una herramienta que es sumamente útil en nuestro trabajo diario cuando
buscamos entender las causas que explican un cierto fenómeno. Esta herramienta se conoce como
Modelo de Regresión Lineal y, bajo algunos supuestos, permite estudiar dichas causas midiendo su
grado de influencia en la conducta del fenómeno. La palabra “Lineal” hace referencia a uno de los
supuestos, pues este modelo asume que las causas tienen una relación lineal (proporcional) con el
fenómeno estudiado.
En diversos ámbitos, es también frecuente que el Modelo de Regresión Lineal sea utilizado para
realizar pronósticos, ya que brinda al tomador de decisiones la capacidad de extrapolar el
comportamiento del fenómeno frente a causas que potencialmente podrían ocurrir a futuro. Veamos
el siguiente ejemplo:
Una cadena de retail está pensando abrir nuevas tiendas en regiones donde actualmente
no opera. Los gerentes intuyen que el gasto publicitario tiene directa incidencia en las
ventas que se alcanzan. Para esto, recolectan información de ventas y gasto publicitario
durante el primer año de las 14 regiones donde tienen operaciones.
La siguiente tabla detalla los datos recolectados que también son graficados a la derecha de la tabla.
Efectivamente se aprecia una relación lineal (con cierto error) entre las ventas y el gasto publicitario.
La pregunta ahora es, ¿cómo relacionar el gasto publicitario con las ventas del primer año? Y luego,
habiendo determinado esa relación, estimar: ¿Cómo pronosticar la venta esperada del primer año, si
el gasto publicitario fuese igual a $2 millones?
La respuesta a la primera pregunta es ejecutar una “regresión lineal”, cuyo objetivo es diseñar la
mejor relación lineal posible entre dos variables.
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
2
• La primera variable 𝑿 (i.e., el gasto publicitario) se denomina “variable independiente”,
“variable explicativa” o “regresor” y representa información conocida que podría tener
influencia sobre el fenómeno estudiado, es decir, una posible causa. Típicamente, es
controlada por el tomador de decisiones, como ocurre con el gasto publicitario.
• La segunda variable 𝒀 (i.e., la venta) se denomina “variable dependiente” o “variable
explicada” y representa una medición del fenómeno a estudiar. No es controlable por el
tomador de decisiones, pero se postula que su valor está parcialmente determinado por el valor
de 𝑿.
En nuestro ejemplo queremos entender/explicar qué es lo que hace que las ventas suban y bajen. Para
ello, postulamos a la variable “gasto publicitario” como una posible causa de dichas fluctuaciones.
Otros ejemplos de variables independientes que podrían explicar ciertos fenómenos son:
A continuación, detallaremos el modelo detrás de una regresión lineal. Primero abordaremos el caso
“simple” con una sola variable independiente, y luego analizaremos el caso “múltiple” que extiende
el modelo a dos o más variables independientes.
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
3
pendiente y define el aumento marginal de 𝑌 con respecto a 𝑋, es decir, mide en cuanto cambia
el valor de 𝑌 por cada unidad que sube 𝑋.
• Existencia de una recta “verdadera”: Asume que existe un modelo lineal verdadero en que toda
la población posee los mismos parámetros 𝛽0 y 𝛽1 . Como no conocemos el valor de los
coeficientes de regresión, vamos a estimar sus valores desde la muestra.
• Error aleatorio: Se asume que existe un error impredecible en la relación lineal entre Y y X
representado por la variable aleatoria 𝜀. Además, se asume que su valor esperado es cero (no tiene
sesgo) y que posee una variabilidad 𝜎 2 que es imposible de predecir con la información
disponible.
• Error normal i.i.d.: Específicamente, para regresión lineal se asume que el error 𝜀 es una
variable aleatoria (v.a.) distribuida Normal(0, 𝜎 2 )1 para cada dato de la población. También, se
asume que los errores de toda la población son independientes entre sí e idénticamente
distribuidos (i.i.d.). El supuesto de independencia implica que conocer el error asociado a un dato
no entrega información alguna para predecir el error de otra observación. Por otro lado, asumir
que todos los errores son idénticamente distribuidos implica que el valor de 𝑋 no influye sobre la
magnitud ni el signo del error.
La pregunta ahora es ¿cómo elegimos la “mejor línea”? Es decir, ¿cuáles son los valores de los
parámetros 𝛽0 y 𝛽1 para que la recta se ajuste de la mejor manera a los datos poblacionales?
Dado que solo tenemos datos de una muestra (y no de toda la población), la pregunta que podemos
responder con la información disponible es ¿cómo determinamos la línea que mejor se ajusta a los
datos disponibles? Esta es la mejor estimación de la recta “verdadera” (que no conocemos).
Supongamos que la mejor línea posible de ajustar es 𝑌𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑋𝑖 + 𝑒𝑖 , donde los parámetros 𝑏0
y 𝑏1 son estimadores de los coeficientes de regresión 𝛽0 y 𝛽1 . De esta forma, la predicción para 𝑌𝑖
1
Recordemos que por el Teorema Central del Límite la distribución normal representa promedios de
eventos aleatorios
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
4
dado el valor observado 𝑋𝑖 será: 𝑌̂𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑋𝑖 . El residuo o error de predicción será la diferencia
entre la estimación 𝑌̂𝑖 y el valor real observado 𝑌𝑖 , es decir, 𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 .
Naturalmente queremos que la “mejor línea” tenga los menores residuos posibles, es decir, que se
ajuste de la mejor forma a los datos en la muestra. Para esto necesitamos una métrica de error (o
medida de calidad) que dependa de los residuos y consolide todo en un valor a minimizar. La métrica
utilizada por un modelo de regresión lineal es la suma de los residuos cuadráticos:
2
𝑆𝑆𝑅 = ∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̂𝑖 ) = ∑𝑛𝑖=1(𝑌𝑖 − 𝑏0 + 𝑏1 ⋅ 𝑋𝑖 )2 .
La métrica 𝑆𝑆𝑅 depende de los valores que tomen 𝑏0 y 𝑏1 , por lo que podríamos probar diferentes
líneas con diferentes valores de 𝑏0 y 𝑏1 y ver con cuál tiene menor valor de 𝑆𝑆𝑅. Una forma más
rigurosa y exacta es construir un modelo de optimización para determinar los valores óptimos de 𝑏0
y 𝑏1 . Veremos modelos de optimización en un par de clases más.
En la práctica, no hay que ser experto en optimización, pues Microsoft Excel y los softwares
estadísticos hacen esto internamente para el usuario.
Volviendo a nuestro ejemplo, los mejores estimadores 𝑏0 y 𝑏1 calculados mediante la Herramienta
de Análisis de Datos de Microsoft Excel serían 𝑏0 = 13,82 y 𝑏1 = 48,60. El intercepto 𝑏0 es donde
el eje vertical toca a la recta y la pendiente 𝑏1 indica el cambio de la recta (verticalmente) por cada
unidad en que ésta aumenta horizontalmente. El modelo (es decir, “la mejor línea”) se puede apreciar
en la siguiente figura:
80
(x^i,
Ventas primer
60
año ($M)
40 bo = ei
20 (xi, yi)
Pendiente
0
0 0.5
Gasto publicitario 1
($M)
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
5
El siguiente ejemplo, similar al anterior, considera una muestra de 15 regiones. Se postula que las
ventas de cada región están influenciadas no solo por la publicidad, sino que también por las
promociones y el nivel de ventas de la competencia.
Como veremos a continuación, el caso de “regresión simple” puede ser fácilmente extendido al caso
“múltiple”. Aquí la variable dependiente sigue siendo Y, pero esta vez cada valor de 𝑌 tiene asociadas
varias variables independientes 𝑋1 , 𝑋2 , … , 𝑋𝑘 . En este caso, cada dato de la muestra es un vector de
valores: (𝑌, 𝑋1 , 𝑋2 , … , 𝑋𝑘 ).
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
6
donde los parámetros 𝑏0 , 𝑏1 , … , 𝑏𝑘 estiman los coeficientes de regresión 𝛽0 , 𝛽1 , … , 𝛽𝑘 . Y la métrica a
minimizar al determinar los valores de 𝑏0 , 𝑏1 , … , 𝑏𝑘 sería:
𝑛 𝑛 𝑛
2 2
𝑆𝑆𝑅 = ∑ 𝑒𝑖2 = ∑(𝑌𝑖 − 𝑌̂𝑖 ) = ∑(𝑌𝑖 − 𝑏0 − 𝑏1 ⋅ 𝑋1,𝑖 − 𝑏2 ⋅ 𝑋2,𝑖 − ⋯ − 𝑏𝑘 ⋅ 𝑋𝑘,𝑖 )
𝑖=1 𝑖=1 𝑖=1
Si hace todo correctamente, se desplegará el menú ``Regresión’’ (ver imagen). Esta ventana le
brindará opciones para llenar los datos necesarios para que Excel puede calibrar los valores de los
estimadores 𝑏0 , 𝑏1 , … , 𝑏𝑘 del modelo.
• En “Rango Y” debe especificar el rango de valores de la variable dependiente. En nuestro
ejemplo será la variable “sales”
2
Si no ve el menú “Análisis de datos” debe activar la herramienta en los complementos de Excel. Ir a
Archivo→ Opciones→ Complementos → Administrar Complementos de Excel (Ir). Luego seleccionar
“Herramientas para Análisis” y hacer click en “Aceptar”. Al terminar debería poder acceder al menú “Análisis
de datos”.
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
7
• En “Rango X” debe especificar el rango de valores de las variables dependientes (una columna
cada variable). En nuestro ejemplo serán las variables “advertising”, “promotions” y
“competitor’s sales”.
• Revise que “Constante igual a cero” no esté seleccionada para que el programa le calcule un
intercepto diferente de cero.
• Más abajo hay que elegir dónde queremos ubicar el resultado de la regresión (algún rango o
una hoja nueva) y los reportes correspondientes de la calibración.
Estadísticas de la regresión
Coeficiente de
correlación múltiple 0,912693
Coeficiente de
determinación R^2 0,833008
R^2 ajustado 0,787465
Error típico 17,600291
Observaciones 15,000000
ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de de los Valor
libertad cuadrados cuadrados F crítico de F
Regresión 3 16997,537 5665,8455 18,2904763 0,0001388
Residuos 11 3407,4728 309,77026
Total 14 20405,009
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
8
• 𝑏3 = -1,838 ($1 millón adicional de ventas de competencia se espera que resulte en una
reducción de $1,9 millones en ventas)
b) Error típico (estándar): se le denomina 𝑠, y es un estimador de 𝜎, la desviación estándar de cada
𝜀𝑖 . Es una medida del “ruido aleatorio” en el modelo. En nuestro ejemplo: 𝑠 = 17,60.
c) Error típico de los coeficientes: 𝑠𝑏0 , 𝑠𝑏1 , … , 𝑠𝑏𝑘 son las desviaciones estándar de los estimadores
𝑏0 , 𝑏1 , … , 𝑏𝑘 . Son útiles para evaluar la calidad de los estimadores de los coeficientes de regresión,
y así validar el modelo.
d) “Estadístico t” y “Probabilidad (Valor p)”: estos dos valores tienen estrecha relación con (a) y
(c). El estadístico t es igual al valor del coeficiente dividido por su respectivo error típico. Para
que un coeficiente sea significativo al 95% de confianza se requiere que su estadístico t sea mayor
que 2 en valor absoluto (sin importar su signo). En nuestro ejemplo todos son mayores que 2 por
lo que podemos decir que todas las variables son estadísticamente significativas para explicar el
fenómeno en cuestión. El valor 𝑝 corresponde a la probabilidad de que el coeficiente real (no el
estimador) sea igual a cero y un valor bajo 0,05 indica que el coeficiente es significativo.
• Un 𝑅2 alto significa que la mayoría de la variabilidad observada en los datos 𝑌𝑖 , se atribuye a sus
respectivos valores 𝑋𝑖 .
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
9
• En regresión simple, 𝑅2 es alto si los puntos están bien alineados con la línea. En regresión
múltiple es cuando están “más o menos” en el mismo hiperplano.
• ¿Cuándo un 𝑅2 es “bueno”? Varía en cada situación. Depende del uso que se le dará a la regresión,
y de la complejidad del problema. Hay contextos donde un 𝑅2 = 0,3 puede ser espectacular
(situaciones altamente variables), y hay otros en que un 𝑅2 = 0,6 puede ser pésimo (situaciones
más predecibles).
• Las personas cuando usan regresión lineal tienden a fijarse sólo en el 𝑅2 , lo cual no están bien
porque este no contiene toda la información. Es importante que el modelo de regresión sea
validado en todos sus elementos, incluyendo una correcta revisión de los signos y significancia
de los coeficientes de regresión estimados.
• Mientras más variables explicativas tenga el modelo, más alto es 𝑅2 . Pero esto no significa que
haya que incorporar variables porque sí no más. Solo hay que incorporar variables si realmente
creemos que ellas son una causa del fenómeno en cuestión, es decir, si influencian que la variable
dependiente Y varíe. El valor de 𝑅2 ajustado penaliza el coeficiente de determinación 𝑅2
reduciendo su valor cuando se usan más variables.
Si alguno de los supuestos falla considerablemente, entonces la calibración de la mejor recta podría
ser muy mala, incluso pasando todas las pruebas estadísticas. Para ilustrar aquello, Anscombe 3
desarrolló el siguiente ejemplo con cuatro regresiones lineales simples, cada una con 11 datos de
muestra (ver Figura). La singularidad de este ejemplo es que todas las regresiones poseen la misma
calibración de la recta 𝑌̂𝑖 = 3 + 0,5𝑋𝑖 y entregan todas el mismo ajuste 𝑅2 = 0,816 que aparenta ser
muy bueno.
• 3
F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (febrero de 1973), 17-21.
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
10
Sin embargo, hay errores evidentes en tres de las cuatro calibraciones. El modelo para el primer set
de datos (gráfico superior izquierdo) pareciera ser adecuado. El modelo en el segundo de datos set
(gráfico superior derecho) no es adecuado, pues en este caso hay una relación no lineal en los datos
de la muestra. El modelo en el tercer set de datos (gráfico inferior izquierdo) tampoco es adecuado,
pues posee un outlier o valor atípico con información distante del resto de los datos. Puede indicar
que el dato pertenece a una población diferente, que su error distribuye diferente o que existe un error
en el registro o medición de los datos. En este caso, si el dato fuese eliminado el ajuste a la recta
definida por el resto de los datos sería perfecto. El modelo en el cuarto set de datos (gráfico inferior
derecho) posee otro problema. En este caso hay dos poblaciones: una de la cual la muestra solo posee
un dato (potencial outlier) y otra con 10 datos donde 𝑋 = 8 e 𝑌 oscila aleatoriamente entre 5 y 9
(aprox). En esta última familia pareciera ser que la variable 𝑋 no explica el comportamiento de 𝑌. A
pesar del buen ajuste, el modelo lineal es claramente una falacia.
REFLEXIÓN FINAL
La validación del modelo es muy importante. Esto es verificar que se cumplen efectivamente las
hipótesis que están detrás de regresión lineal. Por ejemplo:
• Linealidad: Es el supuesto estructural. Con dos variables, se puede hacer un gráfico y
observar. Puede haber conocimiento adicional de que efectivamente hay una relación lineal
entre las variables. Hay que verificar consistencia de signos de los estimadores 𝑏𝑖 , que hagan
sentido.
• Normalidad de los residuos: Graficar los residuos y hacer un histograma. Debería verse un
comportamiento “normal”, es decir, muchos residuos alrededor del cero, y pocos residuos en
los extremos lejanos al cero.
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
11
• Hay otros supuestos que hay que verificar tales como que no exista autocorrelación
(independencia entre residuos), homocedasticidad (desviación estándar constante en
residuos), y no hay multicolinearidad (ocurre cuando dos variables independientes están
altamente correlacionadas). En este curso no veremos estos dos supuestos en detalle.
Sólo una vez validado el modelo, y si presenta buenas características de ajuste, podríamos usarlo para
explicar un fenómeno o hacer predicciones. El 𝑅2 no es el único indicador de si el modelo es “bueno”
o no.
Los modelos de regresión son muy potentes y usados en muchos ámbitos (marketing, economía,
ciencias, medicina, etc.). Pero deben construirse sobre datos sólidos y debe tenerse cuidado con los
resultados. La regresión en sí sólo refleja relaciones numéricas entre los datos: la existencia de
causalidad es una definición a posterior.
Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
12