Está en la página 1de 12

Clase Nº5: Regresión Lineal

Curso: Habilidades Analíticas para una Gestión Moderna

Profesores

Mathias Klapp (PhD)

Juan Carlos Ferrer (PhD)

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
1
Clase Nº5: Regresión Lineal
En esta clase estudiaremos una herramienta que es sumamente útil en nuestro trabajo diario cuando
buscamos entender las causas que explican un cierto fenómeno. Esta herramienta se conoce como
Modelo de Regresión Lineal y, bajo algunos supuestos, permite estudiar dichas causas midiendo su
grado de influencia en la conducta del fenómeno. La palabra “Lineal” hace referencia a uno de los
supuestos, pues este modelo asume que las causas tienen una relación lineal (proporcional) con el
fenómeno estudiado.
En diversos ámbitos, es también frecuente que el Modelo de Regresión Lineal sea utilizado para
realizar pronósticos, ya que brinda al tomador de decisiones la capacidad de extrapolar el
comportamiento del fenómeno frente a causas que potencialmente podrían ocurrir a futuro. Veamos
el siguiente ejemplo:

Una cadena de retail está pensando abrir nuevas tiendas en regiones donde actualmente
no opera. Los gerentes intuyen que el gasto publicitario tiene directa incidencia en las
ventas que se alcanzan. Para esto, recolectan información de ventas y gasto publicitario
durante el primer año de las 14 regiones donde tienen operaciones.

La siguiente tabla detalla los datos recolectados que también son graficados a la derecha de la tabla.
Efectivamente se aprecia una relación lineal (con cierto error) entre las ventas y el gasto publicitario.

La pregunta ahora es, ¿cómo relacionar el gasto publicitario con las ventas del primer año? Y luego,
habiendo determinado esa relación, estimar: ¿Cómo pronosticar la venta esperada del primer año, si
el gasto publicitario fuese igual a $2 millones?
La respuesta a la primera pregunta es ejecutar una “regresión lineal”, cuyo objetivo es diseñar la
mejor relación lineal posible entre dos variables.

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
2
• La primera variable 𝑿 (i.e., el gasto publicitario) se denomina “variable independiente”,
“variable explicativa” o “regresor” y representa información conocida que podría tener
influencia sobre el fenómeno estudiado, es decir, una posible causa. Típicamente, es
controlada por el tomador de decisiones, como ocurre con el gasto publicitario.
• La segunda variable 𝒀 (i.e., la venta) se denomina “variable dependiente” o “variable
explicada” y representa una medición del fenómeno a estudiar. No es controlable por el
tomador de decisiones, pero se postula que su valor está parcialmente determinado por el valor
de 𝑿.
En nuestro ejemplo queremos entender/explicar qué es lo que hace que las ventas suban y bajen. Para
ello, postulamos a la variable “gasto publicitario” como una posible causa de dichas fluctuaciones.
Otros ejemplos de variables independientes que podrían explicar ciertos fenómenos son:

𝒀 (variable dependiente) 𝑿 (variable independiente)


Notas en Universidad Puntaje PSU
Tasa de cáncer de pulmón Cantidad de cigarrillos
Retorno de acción Gasto en I&D
Ventas de bebidas Temperatura

A continuación, detallaremos el modelo detrás de una regresión lineal. Primero abordaremos el caso
“simple” con una sola variable independiente, y luego analizaremos el caso “múltiple” que extiende
el modelo a dos o más variables independientes.

REGRESIÓN LINEAL SIMPLE


La información requerida para todo modelo de regresión es una muestra de 𝑛 datos provenientes de
una población. En el caso de una regresión simple, cada dato es una observación de dos valores (𝑋, 𝑌),
donde 𝑋 es el valor de la variable independiente cuando la variable explicada vale 𝑌. Consideremos
la muestra (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), . . . , (𝑋𝑛 , 𝑌𝑛 ), donde cada par de valores (𝑋𝑖 , 𝑌𝑖 ) representa la 𝑖 −ésima
medición. En el ejemplo del retail la muestra estaría conformada por los datos de las 14 regiones
(𝑛 = 14). La población, en cambio, serían todas las regiones posibles donde instalar un local.
Vamos a postular el siguiente modelo para estimar un valor de 𝑌 cualquiera en la población a partir
de la variable independiente asociada 𝑋:
𝑌 = 𝛽0 + 𝛽1 ⋅ 𝑋 + 𝜀,
y estos serían los supuestos básicos del modelo:
• Linealidad: Asume una relación lineal entre X e Y, donde 𝛽0 , 𝛽1 son los coeficientes de regresión.
El primero, es decir 𝛽0 , se conoce como intercepto y corresponde al valor de 𝑌 cuando 𝑋 es igual
a cero, es decir, cuando no existe efecto del regresor 𝑋 sobre 𝑌. El valor 𝛽1 se conoce como

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
3
pendiente y define el aumento marginal de 𝑌 con respecto a 𝑋, es decir, mide en cuanto cambia
el valor de 𝑌 por cada unidad que sube 𝑋.
• Existencia de una recta “verdadera”: Asume que existe un modelo lineal verdadero en que toda
la población posee los mismos parámetros 𝛽0 y 𝛽1 . Como no conocemos el valor de los
coeficientes de regresión, vamos a estimar sus valores desde la muestra.
• Error aleatorio: Se asume que existe un error impredecible en la relación lineal entre Y y X
representado por la variable aleatoria 𝜀. Además, se asume que su valor esperado es cero (no tiene
sesgo) y que posee una variabilidad 𝜎 2 que es imposible de predecir con la información
disponible.
• Error normal i.i.d.: Específicamente, para regresión lineal se asume que el error 𝜀 es una
variable aleatoria (v.a.) distribuida Normal(0, 𝜎 2 )1 para cada dato de la población. También, se
asume que los errores de toda la población son independientes entre sí e idénticamente
distribuidos (i.i.d.). El supuesto de independencia implica que conocer el error asociado a un dato
no entrega información alguna para predecir el error de otra observación. Por otro lado, asumir
que todos los errores son idénticamente distribuidos implica que el valor de 𝑋 no influye sobre la
magnitud ni el signo del error.

Así, el modelo aplicado a cada par de valores 𝑋𝑖 e 𝑌𝑖 de la muestra sería:


𝑌𝑖 = 𝛽0 + 𝛽1 ⋅ 𝑋𝑖 + 𝜀𝑖 , 𝑖 = 1, … , 𝑛
donde los errores 𝜀𝑖 se asumen i.i.d. con 𝜀𝑖 ~Normal(0, 𝜎 2 ). De acuerdo con lo anterior, la esperanza
condicionada de 𝑌𝑖 dado que se conoce el valor de 𝑋𝑖 es igual a:
=0
𝔼(𝑌𝑖 |𝑋𝑖 ) = 𝛽0 + 𝛽1 ⋅ 𝑋𝑖 + ⏞
𝔼(𝜀𝑖 |𝑋𝑖 ) = 𝛽0 + 𝛽1 ⋅ 𝑋𝑖 .

Es decir, 𝛽0 + 𝛽1 ⋅ 𝑋 es justamente el valor esperado de la v.a. 𝑌 un valor conocido de 𝑋. También,


la varianza de 𝑌𝑖 dado 𝑋𝑖 es igual a la varianza de 𝜀𝑖 , es decir, Var(𝑌𝑖 |𝑋𝑖 ) = 𝜎 2 y no depende del valor
de 𝑋𝑖 .

La pregunta ahora es ¿cómo elegimos la “mejor línea”? Es decir, ¿cuáles son los valores de los
parámetros 𝛽0 y 𝛽1 para que la recta se ajuste de la mejor manera a los datos poblacionales?
Dado que solo tenemos datos de una muestra (y no de toda la población), la pregunta que podemos
responder con la información disponible es ¿cómo determinamos la línea que mejor se ajusta a los
datos disponibles? Esta es la mejor estimación de la recta “verdadera” (que no conocemos).
Supongamos que la mejor línea posible de ajustar es 𝑌𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑋𝑖 + 𝑒𝑖 , donde los parámetros 𝑏0
y 𝑏1 son estimadores de los coeficientes de regresión 𝛽0 y 𝛽1 . De esta forma, la predicción para 𝑌𝑖

1
Recordemos que por el Teorema Central del Límite la distribución normal representa promedios de
eventos aleatorios

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
4
dado el valor observado 𝑋𝑖 será: 𝑌̂𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑋𝑖 . El residuo o error de predicción será la diferencia
entre la estimación 𝑌̂𝑖 y el valor real observado 𝑌𝑖 , es decir, 𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 .
Naturalmente queremos que la “mejor línea” tenga los menores residuos posibles, es decir, que se
ajuste de la mejor forma a los datos en la muestra. Para esto necesitamos una métrica de error (o
medida de calidad) que dependa de los residuos y consolide todo en un valor a minimizar. La métrica
utilizada por un modelo de regresión lineal es la suma de los residuos cuadráticos:
2
𝑆𝑆𝑅 = ∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̂𝑖 ) = ∑𝑛𝑖=1(𝑌𝑖 − 𝑏0 + 𝑏1 ⋅ 𝑋𝑖 )2 .
La métrica 𝑆𝑆𝑅 depende de los valores que tomen 𝑏0 y 𝑏1 , por lo que podríamos probar diferentes
líneas con diferentes valores de 𝑏0 y 𝑏1 y ver con cuál tiene menor valor de 𝑆𝑆𝑅. Una forma más
rigurosa y exacta es construir un modelo de optimización para determinar los valores óptimos de 𝑏0
y 𝑏1 . Veremos modelos de optimización en un par de clases más.
En la práctica, no hay que ser experto en optimización, pues Microsoft Excel y los softwares
estadísticos hacen esto internamente para el usuario.
Volviendo a nuestro ejemplo, los mejores estimadores 𝑏0 y 𝑏1 calculados mediante la Herramienta
de Análisis de Datos de Microsoft Excel serían 𝑏0 = 13,82 y 𝑏1 = 48,60. El intercepto 𝑏0 es donde
el eje vertical toca a la recta y la pendiente 𝑏1 indica el cambio de la recta (verticalmente) por cada
unidad en que ésta aumenta horizontalmente. El modelo (es decir, “la mejor línea”) se puede apreciar
en la siguiente figura:
80
(x^i,
Ventas primer

60
año ($M)

40 bo = ei
20 (xi, yi)
Pendiente
0
0 0.5
Gasto publicitario 1
($M)

REGRESIÓN LINEAL MÚLTIPLE


En muchos casos, existe más de una variable explicativa que puede explicar el comportamiento de un
fenómeno (variable explicada). Para este caso, se usa un modelo “multivariado” (con varias variables
explicativas) conocido como Regresión Lineal Múltiple.

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
5
El siguiente ejemplo, similar al anterior, considera una muestra de 15 regiones. Se postula que las
ventas de cada región están influenciadas no solo por la publicidad, sino que también por las
promociones y el nivel de ventas de la competencia.

Región Ventas Publicidad Promociones Ventas competencia


Y X1 X2 X3
Selkirk 101.8 1.3 0.2 20.40
Susquehanna 44.4 0.7 0.2 30.50
Kittery 108.3 1.4 0.3 24.60
Acton 85.1 0.5 0.4 19.60
Finger Lakes 77.1 0.5 0.6 25.50
Berkshire 158.7 1.9 0.4 21.70
Central 180.4 1.2 1.0 6.80
Providence 64.2 0.4 0.4 12.60
Nashua 74.6 0.6 0.5 31.30
Dunster 143.4 1.3 0.6 18.60
Endicott 120.6 1.6 0.8 19.90
Five-Towns 69.7 1.0 0.3 25.60
Waldeboro 67.8 0.8 0.2 27.40
Jackson 106.7 0.6 0.5 24.30
Stowe 119.6 1.1 0.3 13.70

Como veremos a continuación, el caso de “regresión simple” puede ser fácilmente extendido al caso
“múltiple”. Aquí la variable dependiente sigue siendo Y, pero esta vez cada valor de 𝑌 tiene asociadas
varias variables independientes 𝑋1 , 𝑋2 , … , 𝑋𝑘 . En este caso, cada dato de la muestra es un vector de
valores: (𝑌, 𝑋1 , 𝑋2 , … , 𝑋𝑘 ).

Una muestra de 𝑛 datos sería:


(𝑌1 , 𝑋1,1 , 𝑋2,1 , … , 𝑋𝑘,1 ), (𝑌2 , 𝑋1,2 , 𝑋2,2 , … , 𝑋𝑘,2 ) … (𝑌𝑛 , 𝑋1,𝑛 , 𝑋2,𝑛 , … , 𝑋𝑘,𝑛 ),
y tendría el siguiente modelo poblacional:
𝑌𝑖 = 𝛽0 + 𝛽1 ⋅ 𝑋1,𝑖 + 𝛽2 ⋅ 𝑋2,𝑖 + ⋯ + 𝛽𝑘 ⋅ 𝑋𝑘,𝑖 + 𝜀𝑖 , 𝑖 = 1, … , 𝑛
donde nuevamente se asume que los errores 𝜀𝑖 distribuyen i.i.d. normal con media 0 y varianza 𝜎 2 ,
es decir, 𝜀𝑖 ~𝑁(0, 𝜎 2 ) para 𝑖 = 1, … , 𝑛.

El mejor modelo posible a para estimar el valor de 𝑌𝑖 sería:


𝑌̂𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑋1,𝑖 + 𝑏2 ⋅ 𝑋2,𝑖 + ⋯ + 𝑏𝑘 ⋅ 𝑋𝑘,𝑖 ,

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
6
donde los parámetros 𝑏0 , 𝑏1 , … , 𝑏𝑘 estiman los coeficientes de regresión 𝛽0 , 𝛽1 , … , 𝛽𝑘 . Y la métrica a
minimizar al determinar los valores de 𝑏0 , 𝑏1 , … , 𝑏𝑘 sería:
𝑛 𝑛 𝑛
2 2
𝑆𝑆𝑅 = ∑ 𝑒𝑖2 = ∑(𝑌𝑖 − 𝑌̂𝑖 ) = ∑(𝑌𝑖 − 𝑏0 − 𝑏1 ⋅ 𝑋1,𝑖 − 𝑏2 ⋅ 𝑋2,𝑖 − ⋯ − 𝑏𝑘 ⋅ 𝑋𝑘,𝑖 )
𝑖=1 𝑖=1 𝑖=1

USANDO MICROSOFT EXCEL


Microsoft Excel permite calibrar fácilmente regresiones lineales. Para ello, seleccione el menú
“Datos” y luego haga click en “Análisis de Datos”.2 Se desplegará un menú en donde debe escoger
“Regresión” y luego hacer click en “Aceptar”.

Si hace todo correctamente, se desplegará el menú ``Regresión’’ (ver imagen). Esta ventana le
brindará opciones para llenar los datos necesarios para que Excel puede calibrar los valores de los
estimadores 𝑏0 , 𝑏1 , … , 𝑏𝑘 del modelo.
• En “Rango Y” debe especificar el rango de valores de la variable dependiente. En nuestro
ejemplo será la variable “sales”

2
Si no ve el menú “Análisis de datos” debe activar la herramienta en los complementos de Excel. Ir a
Archivo→ Opciones→ Complementos → Administrar Complementos de Excel (Ir). Luego seleccionar
“Herramientas para Análisis” y hacer click en “Aceptar”. Al terminar debería poder acceder al menú “Análisis
de datos”.

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
7
• En “Rango X” debe especificar el rango de valores de las variables dependientes (una columna
cada variable). En nuestro ejemplo serán las variables “advertising”, “promotions” y
“competitor’s sales”.
• Revise que “Constante igual a cero” no esté seleccionada para que el programa le calcule un
intercepto diferente de cero.
• Más abajo hay que elegir dónde queremos ubicar el resultado de la regresión (algún rango o
una hoja nueva) y los reportes correspondientes de la calibración.

ANALISIS DEL RESULTADO DE UNA REGRESIÓN


Una vez que el software entregue el resultado de la regresión (ver tabla siguiente), es fundamental
interpretar bien los datos y determinar si estamos frente a un buen modelo. Luego, en base a nuestro
análisis, decidir si el modelo es adecuado para hacer las predicciones que deseamos realizar.

Estadísticas de la regresión
Coeficiente de
correlación múltiple 0,912693
Coeficiente de
determinación R^2 0,833008
R^2 ajustado 0,787465
Error típico 17,600291
Observaciones 15,000000
ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de de los Valor
libertad cuadrados cuadrados F crítico de F
Regresión 3 16997,537 5665,8455 18,2904763 0,0001388
Residuos 11 3407,4728 309,77026
Total 14 20405,009

Estadístico Inferior Superior


Coeficientes Error típico t Probabilidad 95% 95%
Intercepción 65,7046 27,7311 2,3693 0,0372 4,6689 126,7403
advertising 48,9788 10,6579 4,5956 0,0008 25,5210 72,4366
promotions 59,6543 23,6247 2,5251 0,0282 7,6567 111,6519
competitor’s sales -1,8376 0,8138 -2,2582 0,0452 -3,6287 -0,0466

a) Coeficientes de regresión: Los parámetros 𝑏0 , 𝑏1 , … , 𝑏𝑘 son estimadores de 𝛽0 , 𝛽1 , … , 𝛽𝑘


basados en los datos de la muestra. Los valores de estos estimadores representan cuánto cambia
la variable dependiente al aumentar en una unidad el valor de la variable independiente a la que
está asociado dicho estimador. En nuestro ejemplo, el resultado es el siguiente:
• 𝑏0 = 65,705 (interpretación depende del contexto).
• 𝑏1 = 48,979 ($1 millón adicional en publicidad se espera que resulte en $49 millones de
aumento en ventas)
• 𝑏2 = 59,654 ($1 millón adicional en promoción se espera que resulte en $60 millones de
aumento en ventas)

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
8
• 𝑏3 = -1,838 ($1 millón adicional de ventas de competencia se espera que resulte en una
reducción de $1,9 millones en ventas)
b) Error típico (estándar): se le denomina 𝑠, y es un estimador de 𝜎, la desviación estándar de cada
𝜀𝑖 . Es una medida del “ruido aleatorio” en el modelo. En nuestro ejemplo: 𝑠 = 17,60.

c) Error típico de los coeficientes: 𝑠𝑏0 , 𝑠𝑏1 , … , 𝑠𝑏𝑘 son las desviaciones estándar de los estimadores
𝑏0 , 𝑏1 , … , 𝑏𝑘 . Son útiles para evaluar la calidad de los estimadores de los coeficientes de regresión,
y así validar el modelo.

d) “Estadístico t” y “Probabilidad (Valor p)”: estos dos valores tienen estrecha relación con (a) y
(c). El estadístico t es igual al valor del coeficiente dividido por su respectivo error típico. Para
que un coeficiente sea significativo al 95% de confianza se requiere que su estadístico t sea mayor
que 2 en valor absoluto (sin importar su signo). En nuestro ejemplo todos son mayores que 2 por
lo que podemos decir que todas las variables son estadísticamente significativas para explicar el
fenómeno en cuestión. El valor 𝑝 corresponde a la probabilidad de que el coeficiente real (no el
estimador) sea igual a cero y un valor bajo 0,05 indica que el coeficiente es significativo.

e) Coeficiente de determinación 𝑹𝟐 : es una medida de la calidad general de la regresión.


Específicamente, es la fracción de la variabilidad total en los datos 𝑌𝑖 que es explicada por la línea
de la regresión generada a partir de la muestra. Toma un valor entre 0 y 1. En nuestro ejemplo
podemos decir que el modelo calibrado con esas tres variables independientes está explicando el
83% de la variabilidad de las ventas, lo cual en este contexto pareciera ser bueno.
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑝𝑜𝑟 𝑚𝑜𝑑𝑒𝑙𝑜
𝑅2 =
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑌𝑖

La siguiente figura muestra tres ejemplos de regresiones con diferentes coeficientes 𝑅2 :

Algunos comentarios sobre el coeficiente de

• Un 𝑅2 alto significa que la mayoría de la variabilidad observada en los datos 𝑌𝑖 , se atribuye a sus
respectivos valores 𝑋𝑖 .

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
9
• En regresión simple, 𝑅2 es alto si los puntos están bien alineados con la línea. En regresión
múltiple es cuando están “más o menos” en el mismo hiperplano.

• ¿Cuándo un 𝑅2 es “bueno”? Varía en cada situación. Depende del uso que se le dará a la regresión,
y de la complejidad del problema. Hay contextos donde un 𝑅2 = 0,3 puede ser espectacular
(situaciones altamente variables), y hay otros en que un 𝑅2 = 0,6 puede ser pésimo (situaciones
más predecibles).

• Las personas cuando usan regresión lineal tienden a fijarse sólo en el 𝑅2 , lo cual no están bien
porque este no contiene toda la información. Es importante que el modelo de regresión sea
validado en todos sus elementos, incluyendo una correcta revisión de los signos y significancia
de los coeficientes de regresión estimados.

• Mientras más variables explicativas tenga el modelo, más alto es 𝑅2 . Pero esto no significa que
haya que incorporar variables porque sí no más. Solo hay que incorporar variables si realmente
creemos que ellas son una causa del fenómeno en cuestión, es decir, si influencian que la variable
dependiente Y varíe. El valor de 𝑅2 ajustado penaliza el coeficiente de determinación 𝑅2
reduciendo su valor cuando se usan más variables.

COMENTARIO SOBRE SUPUESTO DE LINEALIDAD


Es importante hacer notar al estudiante que una regresión lineal asume de antemano que el modelo
tendrá un comportamiento lineal, que la información disponible en la muestra no posee errores de
medición y que los errores son i.i.d. normales, todos con la misma desviación estándar.

Si alguno de los supuestos falla considerablemente, entonces la calibración de la mejor recta podría
ser muy mala, incluso pasando todas las pruebas estadísticas. Para ilustrar aquello, Anscombe 3
desarrolló el siguiente ejemplo con cuatro regresiones lineales simples, cada una con 11 datos de
muestra (ver Figura). La singularidad de este ejemplo es que todas las regresiones poseen la misma
calibración de la recta 𝑌̂𝑖 = 3 + 0,5𝑋𝑖 y entregan todas el mismo ajuste 𝑅2 = 0,816 que aparenta ser
muy bueno.

• 3
F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (febrero de 1973), 17-21.

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
10
Sin embargo, hay errores evidentes en tres de las cuatro calibraciones. El modelo para el primer set
de datos (gráfico superior izquierdo) pareciera ser adecuado. El modelo en el segundo de datos set
(gráfico superior derecho) no es adecuado, pues en este caso hay una relación no lineal en los datos
de la muestra. El modelo en el tercer set de datos (gráfico inferior izquierdo) tampoco es adecuado,
pues posee un outlier o valor atípico con información distante del resto de los datos. Puede indicar
que el dato pertenece a una población diferente, que su error distribuye diferente o que existe un error
en el registro o medición de los datos. En este caso, si el dato fuese eliminado el ajuste a la recta
definida por el resto de los datos sería perfecto. El modelo en el cuarto set de datos (gráfico inferior
derecho) posee otro problema. En este caso hay dos poblaciones: una de la cual la muestra solo posee
un dato (potencial outlier) y otra con 10 datos donde 𝑋 = 8 e 𝑌 oscila aleatoriamente entre 5 y 9
(aprox). En esta última familia pareciera ser que la variable 𝑋 no explica el comportamiento de 𝑌. A
pesar del buen ajuste, el modelo lineal es claramente una falacia.

REFLEXIÓN FINAL
La validación del modelo es muy importante. Esto es verificar que se cumplen efectivamente las
hipótesis que están detrás de regresión lineal. Por ejemplo:
• Linealidad: Es el supuesto estructural. Con dos variables, se puede hacer un gráfico y
observar. Puede haber conocimiento adicional de que efectivamente hay una relación lineal
entre las variables. Hay que verificar consistencia de signos de los estimadores 𝑏𝑖 , que hagan
sentido.
• Normalidad de los residuos: Graficar los residuos y hacer un histograma. Debería verse un
comportamiento “normal”, es decir, muchos residuos alrededor del cero, y pocos residuos en
los extremos lejanos al cero.

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
11
• Hay otros supuestos que hay que verificar tales como que no exista autocorrelación
(independencia entre residuos), homocedasticidad (desviación estándar constante en
residuos), y no hay multicolinearidad (ocurre cuando dos variables independientes están
altamente correlacionadas). En este curso no veremos estos dos supuestos en detalle.
Sólo una vez validado el modelo, y si presenta buenas características de ajuste, podríamos usarlo para
explicar un fenómeno o hacer predicciones. El 𝑅2 no es el único indicador de si el modelo es “bueno”
o no.
Los modelos de regresión son muy potentes y usados en muchos ámbitos (marketing, economía,
ciencias, medicina, etc.). Pero deben construirse sobre datos sólidos y debe tenerse cuidado con los
resultados. La regresión en sí sólo refleja relaciones numéricas entre los datos: la existencia de
causalidad es una definición a posterior.

Pontificia Universidad Católica de Chile © Mathias Klapp & Juan Carlos Ferrer
12

También podría gustarte