05 Regresion

Regresión
© Ediciones Roble, S.L.

Indice
Regresión 3
I. Introducción 3
II. Objetivos 5
III. Regresión 5
3.1. Modelo de regresión lineal 5
3.1.1. Inferencia de los parámetros de regresión 9
3.1.2. Modelo de regresión lineal simple con una variable independiente categórica de dos categorías 11
3.2. Bondad de ajuste 14
3.3. Modelo de regresión lineal múltiple 15
3.3.1. Selección de variables 16
3.4. Diagnosis y validación del modelo 26
3.4.1. Asunciones de modelo de regresión lineal 26
3.4.2. Observaciones influyentes y outliers 26
3.4.3. Herramientas para valorar las asunciones del modelo de regresión lineal 27
3.4.4. Multicolinealidad 32
IV. Resumen 33
Ejercicios 35
Caso práctico 35
Recursos 38
Glosario. 38
2/38
Regresión
Regresión
I. Introducción
La regresión lineal
Es una técnica básica del análisis estadístico que servirá de base para análisis más complejos. Mediante dicha
técnica se determinan las relaciones de dependencia de tipo lineal entre una variable dependiente cuantitativa
respecto de una o varias variables explicativas/independientes que pueden ser de tipo cuantitativo o categórico.
A través del análisis de regresión se construirán modelos multivariables para predecir los valores de la variable
dependiente a partir de los valores de las variables independientes.
Para los ejemplos de esta unidad, se utilizará una base de datos que contiene información
sobre el precio y otras características de 1 008 viviendas en Estados Unidos.
Las variables incluidas son las siguientes:
price
Precio en dólares.
bedrooms
Número de habitaciones.
bathrooms
Número de baños.
“sqft_living”
Tamaño de la vivienda en m2.
floors
Número de plantas de la casa.
“Exterior2”
Orientación de la vivienda (exterior/no exterior).
“yr_built”
Año de construcción de la casa.
“yr_renovated”
Año de renovación de la casa.
3/38
Regresión
Supuesto
Tómese como supuesto que se quiere estudiar la relación lineal entre el precio diario de las casas (en miles
de dólares) y el tamaño (en metros cuadrados) de una muestra de hogares en Estados Unidos. En la unidad
uno se presentaron dos herramientas para explorar la relación entre dos variables cuantitativas:
El diagrama de dispersión.
El coeficiente de correlación lineal de Pearson.
El diagrama de dispersión del ejemplo, representado en la figura 1, muestra la existencia de una relación
positiva fuerte entre el tamaño de las casas (eje x; variable independiente) y el precio (eje y; variable
dependiente); valores altos de tamaño se asocian con valores altos de precio.
Figura 1. Diagrama de dispersión.
Fuente: elaboración propia (2020).
Para calcular el coeficiente de correlación lineal en R se puede utilizar la siguiente función, donde “sqft_living”
indica el tamaño de la vivienda y pricemiles el precio.
> houses <- read.csv("house_prices2.csv")
> attach(houses)
> cor(sqft_living, pricemiles)
[1] 0.6158454
En este caso, el valor del coeficiente de correlación lineal entre el tamaño y el precio es 0,62, lo que muestra una
relación lineal positiva entre el tamaño y el precio de los hogares.
4/38
Regresión
La correlación
Cuantifica la fuerza de la asociación entre dos variables cuantitativas y las trata de modo simétrico.
La regresión lineal
Permite estudiar la relación entre dos variables cuantitativas y describe el comportamiento de una variable en
función de la otra.
II. Objetivos
Los objetivos de esta unidad son:
Conocer de forma intuitiva el concepto de regresión lineal simple y múltiple.
Aprender el cálculo e interpretación de los parámetros de los modelos de regresión lineal simple y múltiple.
Conocer el cálculo e interpretación del intervalo de confianza y del contraste de hipótesis del parámetro de la
pendiente en la regresión lineal.
Aprender las asunciones necesarias que se deben cumplir al usar el modelo de regresión lineal.
Aprender a construir un modelo de regresión lineal múltiple.
III. Regresión
A continuación, se introducirá de forma intuitiva el modelo de regresión lineal:
3.1. Modelo de regresión lineal
5/38
Regresión
Idea intuitiva de la regresión lineal
Consiste en intentar resumir la información del diagrama de dispersión mediante una recta que se ajuste a la
nube de puntos, tal y como se muestra en el diagrama de la derecha de la figura 2.
Figura 2. Diagrama de dispersión.
El objetivo consiste en generar un modelo de regresión (ecuación de una recta) que

permita explicar la relación lineal que existe entre dos variables. En este ejemplo, entre
precio y tamaño. A la variable dependiente o respuesta se la identifica como Y, y a la variable
predictora o independiente como X.
La recta de regresión
Intuitivamente, la recta de regresión será aquella que esté más cerca de todos los puntos. Para
determinar esta recta, se utiliza el método de los mínimos cuadrados, que elige como recta de regresión aquella
que minimiza las distancias verticales de las observaciones a la recta, tal y como se refleja a continuación:
6/38
Regresión
Figura 3. Diagrama de dispersión y residuos.
La distancia vertical entre el valor observado y el valor ajustado por la recta se denomina
residuo (ei). Los residuos pueden ser positivos o negativos y al sumarlos podrían
cancelarse. El método de los mínimos cuadrados utiliza la minimización de la suma de los
residuos al cuadrado (ei2).
A la recta que minimiza la suma de los residuos al cuadrado se le denomina recta de regresión. El modelo de
regresión lineal simple se describe de acuerdo a la siguiente ecuación: Y=α+βX+e
Siendo α la constante o intercepto, β la pendiente y e el error aleatorio. Este último representa la diferencia
entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que influyen en Y,
pero que no se incluyen en el modelo como predictores.
7/38
Regresión
En la gran mayoría de casos, los valores α y β poblacionales son desconocidos, por lo que,
a partir de una muestra, se obtienen sus estimaciones α y β. Estas estimaciones se
conocen como coeficientes de regresión o least square coefficient estimates, ya que toman
aquellos valores que minimizan la suma de cuadrados residuales, lo que da lugar a la recta
que pasa más cerca de todos los puntos. La fórmula de la recta es la siguiente:
La pendiente ( ) se puede estimar con la siguiente fórmula:
Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente de

correlación de Pearson que se ha visto previamente.
El intercepto α es el valor de Y cuando X toma el valor 0; se interpreta como la
media de la variable de respuesta cuando el predictor vale 0. Si la variable de
exposición no puede tomar el valor 0, el intercepto no es interpretable.
La pendiente ( ) se interpreta como el cambio por término medio en y por cada
aumento de una unidad en x; el cambio por término medio en la variable respuesta
por cada aumento de una unidad en la variable predictor.
8/38
Regresión
Siguiendo con el ejemplo visto anteriormente, la función “lm()” en R permite estimar un modelo
de regresión lineal por mínimos cuadrados en el que la variable respuesta es precio
(“Price_miles”) y el predictor tamaño (“sqft_living”).
> lm(pricemiles ~ sqft_living)
Call:
lm(formula = pricemiles ~ sqft_living)
Coefficients:
(Intercept) sqft_living
156.0601 0.1602
La recta de regresión para el precio de la vivienda respecto al tamaño es:
Como el tamaño no puede tomar el valor cero, el intercepto (α =156,06) no es

interpretable.
La pendiente ( = 0,16) se interpretaría de la siguiente manera: el precio de las
viviendas se incrementa, en media, 0,16 miles de $ por cada aumento de 1 m2 en su
tamaño.
Para que el intercepto sea interpretable se deben “centrar” (restarles su media) los valores de la
variable predictora.
3.1.1. Inferencia de los parámetros de regresión
En la mayoría de las ocasiones, aunque los parámetros de la recta de regresión se estiman con
los datos de la muestra, el objetivo principal es poder sacar conclusiones de la relación entre
dos variables en la población de la que se extrajo la muestra.
En los individuos de la muestra, se observa una relación positiva entre el precio y el tamaño. Pero, ¿esta relación
puede ser explicada por azar o existe en la población?
Para responder a esta pregunta, se aplican las herramientas aprendidas en la unidad de inferencia para realizar:
Contraste de hipótesis sobre la pendiente de la recta de regresión en la población, β, para determinar si existe
una relación lineal entre el tamaño y el precio de los hogares de la población.
9/38
Regresión
Intervalo de confianza al 95 % para la pendiente de la recta de regresión para cuantificar la magnitud de la

asociación entre el tamaño y el precio.
Contraste de hipótesis sobre la pendiente de la recta de regresión (ß)
Primero, se definen las hipótesis nula y alternativa:
Hipótesis nula
En la población de la que se extrajo la muestra, no hay una relación lineal entre el tamaño y el precio de la
vivienda. H 0: β=0
Hipótesis alternativa
En la población de la que se extrajo la muestra hay una relación lineal entre el tamaño y el precio de la
vivienda. H a: β≠0
Para poder calcular el valor del test estadístico y el p-valor, es necesario estimar el error estándar (EE( )):
> regresion<-lm(pricemiles ~ sqft_living)
> summary(regresion)
Call:
Residuals:
Min 1Q Median 3Q Max
-554.58 -124.00 -17.03 107.09 507.76
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.561e+02 1.368e+01 11.40 <2e-16 ***
sqft_living 1.602e-01 6.466e-03 24.78 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 158.4 on 1005 degrees of freedom
Multiple R-squared: 0.3793, Adjusted R-squared: 0.3786
10/38
Regresión
F-statistic: 614 on 1 and 1005 DF, p-value: < 2.2e-16
Asumiendo que (EE( )) es 0,00646, el valor del test estadístico sería:
Bajo la hipótesis nula, el estadístico t sigue una distribución t de student con n-2 grados de libertad. El p-valor del
contraste es <0.05. Los datos muestran evidencia estadística suficiente para rechazar la hipótesis nula, es decir:
para afirmar que existe una relación lineal entre el tamaño y el precio de las viviendas de una región de Estados
Unidos.
Intervalo de confianza al 95 % para la pendiente (ß)
Un intervalo de confianza al 95 % para β se calcula con:
Donde tn-2 es el punto de la distribución t de student con n-2 grados de libertad que deja en las colas una
probabilidad del 5 %. Para calcular el intervalo de confianza al 95 % con R:
> confint(regresion, level = 0.95)
2.5 % 97.5 %
(Intercept) 129.2088309 182.9113788
sqft_living 0.1475414 0.1729186
En la población de hogares de una región de Estados Unidos existe una seguridad con un 95 % de confianza de
que el precio de la vivienda aumenta entre 0,15 y 0,17 miles de $ por cada aumento de un m2 en el tamaño de la
vivienda. Como el intervalo de confianza no incluye al cero, podemos concluir con una confianza del 95 % que
hay una relación estadísticamente significativa entre el precio y el tamaño.
3.1.2. Modelo de regresión lineal simple con una variable independiente

categórica de dos categorías
Se quiere estudiar si el precio de las viviendas es igual si la vivienda es exterior o no. En este caso, la variable de
interés es cuantitativa y el predictor es una variable categórica de dos categorías. Si se intenta representar los
datos en un diagrama de dispersión, se obtendría:
11/38
Regresión
Figura 4. Diagrama de dispersión variable x categórica.
En el gráfico se puede observar la media del medio en las viviendas exteriores (valor uno del eje X) y la media
del precio que no son exteriores (valor cero del eje x). Para comparar la media se puede utilizar el test para la
diferencia de media presentado en la unidad tres, pero también se puede estimar un modelo de regresión.
Sea:
La variable respuesta (por ejemplo: el precio en miles de $ de las viviendas).
Predictor (por ejemplo: vivienda exterior (0 “no exterior”; 1 “exterior”).
Y=α+βX+e
Valor medio de y cuando x vale 0 (por ejemplo: precio medio en las viviendas no exteriores).
Diferencia entre las medias del grupo 1 y grupo 0 (por ejemplo: diferencia entre la media de precio en las
viviendas exteriores y la media de precio en las no exteriores).
Código en R
> regresion2 <- lm(pricemiles ~ exterior)
Call:
lm(formula = pricemiles ~ exterior)
12/38
Regresión
Residuals:
-386.71 -148.77 -40.27 123.23 558.73
Coefficients:
(Intercept) 441.272 7.974 55.340 < 2e-16 ***
exteriorSi 77.937 12.748 6.114 1.39e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
F-statistic: 37.38 on 1 and 1005 DF, p-value: 1.391e-09
> confint(regresion2, level = 0.95)
2.5 % 97.5 %
(Intercept) 425.62497 456.9195
exteriorSi 52.92123 102.9518
Intercept= 441,27
El precio medio de las viviendas no exteriores es 441,27 miles de euros (IC 95 %: 425,62; 7 456,92).
“exteriorSi=77.94”
Las viviendas exteriores valen en media 77,94 (IC 95 %: 52,92; 102,95). Miles de $ más que las viviendas no
exteriores (categoría de referencia).
13/38
Regresión
El p-valor del contraste H 0: β=0 es <0.05. Los datos presentan evidencia estadística
suficiente para afirmar que el precio medio en las viviendas exteriores es diferente a las no
exteriores.
3.2. Bondad de ajuste

Una vez que se ha ajustado un modelo, es necesario verificar su eficiencia, ya que aun siendo la línea que mejor
se ajusta a las observaciones de entre todas las posibles, el modelo puede no ser bueno. Las medidas más
utilizadas para medir la calidad del ajuste son el test F y el coeficiente de determinación R 2.
Coeficiente de determinación R 2
Mide el porcentaje de la variabilidad de y (por ejemplo: precio) explicado por el modelo, es decir, por su relación
lineal con x (por ejemplo: tamaño). Su valor está acotado entre cero y uno. En los modelos de regresión lineal
simple el valor de R2 se corresponde con el cuadrado del coeficiente de correlación de Pearson (r) entre X e Y,
aunque no es así en regresión múltiple. Existe una modificación de R2 llamada como R2 ajustado que se emplea
principalmente en los modelos de regresión múltiple. Introduce una penalización cuantos más predictores se
incorporan al modelo. En los modelos lineales simples no se emplea.
Test F
Es un contraste de hipótesis que considera como hipótesis nula que todos los coeficientes beta de la regresión
estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es. Se emplea en
modelos de regresión múltiple para saber si al menos alguno de los predictores introducidos en el modelo
contribuye de forma significativa. En modelos lineales simples, dado que solo hay un predictor, el p-valor del test
F es igual al p-valor del t-test del predictor.
14/38
Regresión
En el ejemplo del modelo de regresión del precio de la vivienda sobre el tamaño se encuentra
el R cuadrado y el p-valor del test F (marcados en amarillo a continuación):
> regresion<-lm(pricemiles ~ sqft_living)
> summary(regresion)
Call:
Residuals:
-554.58 -124.00 -17.03 107.09 507.76
Coefficients:
(Intercept) 1.561e+02 1.368e+01 11.40 <2e-16 ***
sqft_living 1.602e-01 6.466e-03 24.78 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
El valor de R2 es 0,3793 (37,93 %), es decir, el 37,93 % de la variabilidad de la variable precio

está explicada por la variable tamaño. Además, el p-valor del test F es <0,05 por lo que el
predictor es estadísticamente significativo.
3.3. Modelo de regresión lineal múltiple

Una extensión natural del modelo de regresión lineal simple
Consiste en considerar más de una variable explicativa. Los modelos de regresión múltiple estudian la relación
entre una variable de interés Y (variable respuesta o dependiente) y un conjunto de variables explicativas o
regresoras X1, X2, . . ., Xp.
15/38
Regresión
En el modelo de regresión lineal múltiple se supone que la función de regresión que relaciona la variable
dependiente con las variables independientes es lineal, es decir:
A continuación, se explica cómo seleccionar las variables que se deben incluir en un modelo de regresión.
3.3.1. Selección de variables
L a construcción del modelo final multivariable depende del objetivo del estudio. Cuando el objetivo del
estudio es identificar los factores pronóstico construimos un modelo predictivo.
El objetivo de un modelo predictivo es identificar qué variables se asocian a la variable de

interés de forma independiente; esto es, teniendo en cuenta el efecto simultáneo que el resto de
las variables tienen sobre la variable de interés.
Existen determinadas métricas que podemos utilizar para seleccionar el mejor modelo de entre un conjunto de
ellos con distintos predictores o número de ellos. Entre las métricas más comúnmente utilizadas para comparar
modelos están el criterio de información de Akaike (AIC) y criterio de información bayesiano (BIC).
Dados dos modelos estimados, el modelo con el menor valor de BIC/AIC es el que se prefiere.
Por lo tanto, menor BIC/AIC implica un número menor de variables explicativas, mejor ajuste, o
ambos. En el ejemplo de construcción del modelo se ilustrará el uso de estas métricas.
FASES DE LA SELECCIÓN DE VARIABLES:
Análisis univariable
Identificar qué variables se asocian a la variable de interés sin tener en cuenta el efecto simultáneo del resto de
variables. Es decir, cada modelo de regresión solo incluye una variable.
Análisis multivariable
Identificar qué variables se asocian a la variable de interés teniendo en cuenta el efecto simultáneo que tienen el
resto de variables. Es decir, el modelo de regresión incluye dos o más variables. Hay diferentes métodos para
identificar los predictores incluidos en el modelo final:
Método jerárquico
Basándose en el criterio del analista, se introducen unos predictores determinados en un orden determinado.
Método de entrada forzada
Se introducen todos los predictores simultáneamente.
16/38
Regresión
Método paso a paso (stepwise)
Emplea criterios matemáticos para decidir qué predictores contribuyen significativamente al modelo y en qué
orden se introducen. Dentro de este método existen dos estrategias:
Procedimiento hacia atrás (backguard)
Empezar con un modelo que incluya las variables de exposición que se han asociado significativamente a
la variable de interés en el análisis univariable. Se prueba a eliminar una a una cada variable, si se mejora
el modelo, queda excluida. Este método permite evaluar cada variable en presencia de las otras.
Procedimiento hacia adelante (forward)
Empezar con un modelo vacío. A partir de este se generan todos los posibles modelos introduciendo una
sola variable de entre las disponibles. Aquella variable que mejore en mayor medida el modelo se
selecciona. A continuación, se intenta incrementar el modelo probando a introducir una a una las variables
restantes. Si introduciendo alguna de ellas mejora, también se selecciona. En el caso de que varias lo
hagan, se selecciona la que incremente en mayor medida la capacidad del modelo. Este proceso se
repite hasta llegar al punto en el que ninguna de las variables que quedan por incorporar mejore el
modelo.
En el caso de variables categóricas de más de dos categorías, si al menos uno de sus niveles
es significativo, se considera que la variable lo es. En R, la función “step()” permite encontrar el
mejor modelo basado en AIC utilizando cualquiera de las tres variantes del método paso a
paso.
Ejemplo
Retomando el ejemplo utilizado anteriormente, el objetivo es crear el modelo de regresión

lineal multivariable que mejor prediga el precio de la vivienda en una región de Estados
Unidos utilizando la información disponible.
La variable respuesta/dependiente será el precio de la vivienda en miles y como potenciales predictores vamos
a tomar en consideración: tamaño, número de habitaciones, número de baños, año de construcción, año de
renovación y orientación (exterior/no exterior).
En la primera fase se realizarán los modelos univariables. Aunque con la función step de R
este paso no sería imprescindible, es importante realizar esta fase, ya que aportará un
mayor conocimiento de los datos. En la fase uno del proceso de selección de variables
vamos a estimar un modelo de regresión para cada variable predictora.
Fase uno: análisis univariable
Modelo de regresión con el predictor tamaño de la vivienda:
17/38
Regresión
> Modelo <- lm(pricemiles ~ sqft_living)
> summary(Modelo)
Call:
Residuals:
-554.58 -124.00 -17.03 107.09 507.76
Coefficients:
(Intercept) 1.561e+02 1.368e+01 11.40 <2e-16 ***
sqft_living 1.602e-01 6.466e-03 24.78 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Existe una relación lineal entre el precio de la vivienda y el tamaño (p-valor< 0.05). Por cada aumento del
tamaño de la vivienda en una unidad, el precio aumenta en 1 602 euros. El coeficiente de determinación
R2 0,3793, es decir, el tamaño de la vivienda explica casi el 38 % de la variabilidad del precio de la
vivienda.
Modelo de regresión con el predictor número de habitaciones:
> Modelo <- lm(pricemiles ~ bedrooms)
> summary(Modelo)
Call:
lm(formula = pricemiles ~ bedrooms)
Residuals:
18/38
Regresión
-342.32 -151.50 -31.68 121.16 553.32
Coefficients:
(Intercept) 219.764 22.429 9.798 <2e-16 ***
bedrooms 75.638 6.491 11.652 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
F-statistic: 135.8 on 1 and 1005 DF, p-value: < 2.2e-16
Se observa también que existe una relación lineal estadísticamente significativa entre el número de
habitaciones y el precio de la vivienda. El precio de la vivienda se incrementa en 75,63 mil euros por cada
aumento de una habitación. La variabilidad explicada (R2) del modelo es el 11,9 %.
Modelo de regresión con el predictor número de baños:
> Modelo <- lm(pricemiles ~ bathrooms)
> summary(Modelo)
Call:
lm(formula = pricemiles ~ bathrooms)
Residuals:
-351.3 -148.5 -27.3 124.1 592.2
Coefficients:
(Intercept) 230.912 17.110 13.50 <2e-16 ***
bathrooms 117.938 7.894 14.94 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
19/38
Regresión
También se observa una relación lineal significativa entre el número de baños y el precio de la vivienda.
Por cada baño más, el precio de la vivienda se incrementa en 117 938 miles de euros. La variabilidad
explicada (R2) del modelo es el 18,2 %.
Modelo de regresión con el predictor año de construcción:
> Modelo <- lm(pricemiles ~ yr_built)
> summary(Modelo)
Call:
lm(formula = pricemiles ~ yr_built)
Residuals:
-372.54 -156.85 -43.59 129.75 551.96
Coefficients:
(Intercept) -279.9361 427.9670 -0.654 0.5132
yr_built 0.3813 0.2171 1.757 0.0793 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
F-statistic: 3.086 on 1 and 1005 DF, p-value: 0.07928
No se observa una relación estadísticamente significativa entre el año de construcción y el precio. Aunque
el p-valor está en el límite de la significación estadística (P-valor <0,1). La variabilidad explicada es del 0,3
%.
Modelo de regresión con el predictor año de renovación:
> Modelo <- lm(pricemiles ~ yr_renovated)
> summary(Modelo)
20/38
Regresión
Call:
lm(formula = pricemiles ~ yr_renovated)
Residuals:
-393.88 -155.40 -39.15 130.74 530.85
Coefficients:
(Intercept) 469.14860 6.46703 72.545 <2e-16 ***
yr_renovated 0.03003 0.01551 1.936 0.0531 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
F-statistic: 3.749 on 1 and 1005 DF, p-value: 0.05313
No se observa una relación estadísticamente significativa entre el año de renovación y el precio. Aunque
el p-valor está en el límite de la significación estadística (P-valor <0,1). La variabilidad explicada es del 0,3
%.
Modelo de regresión con el predictor orientación de la vivienda:
> Modelo <- lm(pricemiles ~ exterior)
> summary(Modelo)
Call:
lm(formula = pricemiles ~ exterior)
Residuals:
-386.71 -148.77 -40.27 123.23 558.73
Coefficients:
(Intercept) 441.272 7.974 55.340 < 2e-16 ***
21/38
Regresión
exteriorSi 77.937 12.748 6.114 1.39e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
F-statistic: 37.38 on 1 and 1005 DF, p-value: 1.391e-09
Las viviendas exteriores tienen un precio en media 77,93 miles de euros superior a las no exteriores. La
variabilidad explicada es del 3 %.
Fase dos: análisis multivariable
Se va a construir el modelo multivariable predictivo con un enfoque hacia atrás. En primer lugar, se construirá
el modelo con todas las variables potencialmente predictoras. Aunque el año de renovación y el año de
construcción no resultaron estadísticamente significativos, se incluirán en el modelo final, ya que están en el
límite de la significación estadística (P-valor <0,1).
> Modelo <-lm(pricemiles ~ sqft_living + bedrooms + bathrooms+ yr_built+ yr_renovated+ exterior)
> summary(Modelo)
Call:
lm(formula = pricemiles ~ sqft_living + bedrooms + bathrooms +
yr_built + yr_renovated + exterior)
Residuals:
-708.12 -116.49 -9.73 104.33 486.27
Coefficients:
(Intercept) 2.891e+03 4.248e+02 6.805 1.73e-11 ***
sqft_living 1.761e-01 1.026e-02 17.169 < 2e-16 ***
bedrooms -2.102e+01 6.935e+00 -3.031 0.0025 **
bathrooms 2.347e+01 1.139e+01 2.061 0.0396 *
yr_built -1.394e+00 2.185e-01 -6.381 2.68e-10 ***
22/38
Regresión
yr_renovated 1.073e-03 1.235e-02 0.087 0.9308
exteriorSi 1.240e+01 1.063e+01 1.166 0.2437
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
El modelo con todas las variables introducidas como predictores tiene un R2 alto (0,4145). Es capaz de
explicar el 41,45 % de la variabilidad observada en el precio de la vivienda. El p-valor del modelo es
significativo (<0.05), por lo que se puede aceptar que la relación no es producto del azar; al menos uno de los
coeficientes parciales de regresión es distinto de cero. Hay dos predictores que no son significativos, lo que
es un indicativo de que podrían no contribuir al modelo.
El siguiente paso es construir un modelo “hacia atrás” para seleccionar el mejor conjunto de predictores. El
valor matemático empleado para determinar la calidad del modelo va a ser Akaike (AIC). Para construir el
modelo hacia atrás se utiliza la función de step de R con la opción backguard.
> step(object =Modelo, direction = "backward", trace = 1)
Start: AIC=10154.41
pricemiles ~ sqft_living + bedrooms + bathrooms + yr_built +
yr_renovated + exterior
Df Sum of Sq RSS AIC
- yr_renovated 1 180 23787121 10152
- exterior 1 32366 23819308 10154
<none> 23786941 10154
- bathrooms 1 101032 23887974 10157
- bedrooms 1 218497 24005439 10162
- yr_built 1 968649 24755590 10193
- sqft_living 1 7012054 30798995 10413
Step: AIC=10152.41
pricemiles ~ sqft_living + bedrooms + bathrooms + yr_built +
exterior
23/38
Regresión
- exterior 1 32280 23819401 10152
<none> 23787121 10152
- bathrooms 1 101986 23889107 10155
- bedrooms 1 219862 24006983 10160
- yr_built 1 1038154 24825275 10193
- sqft_living 1 7043353 30830474 10412
Step: AIC=10151.78
pricemiles ~ sqft_living + bedrooms + bathrooms + yr_built
<none> 23819401 10152
- bathrooms 1 119374 23938775 10155
- bedrooms 1 218647 24038048 10159
- yr_built 1 1261119 25080520 10202
- sqft_living 1 7205763 31025164 10416
Call:
yr_built)
Coefficients:
(Intercept) sqft_living bedrooms bathrooms yr_built
3043.2946 0.1773 -20.9920 25.2471 -1.4724
En la salida de R, se observa que con el método backward se parte del total de las variables, y en función del
AIC se determina qué variables deben abandonar el modelo.
El proceso finaliza cuanto el AIC de referencia es menor que el AIC de las variables predictoras del modelo
El mejor modelo ha sido (AIC más pequeño), es decir, el último de la salida de la función step:
> Modelo_final <-lm(pricemiles ~ sqft_living +bedrooms + bathrooms + yr_built )
> summary(Modelo_final)
24/38
Regresión
Call:
yr_built)
Residuals:
-717.27 -117.43 -11.92 104.40 482.22
Coefficients:
(Intercept) 3043.29463 392.41297 7.755 2.16e-14 ***
sqft_living 0.17730 0.01018 17.410 < 2e-16 ***
bedrooms -20.99198 6.92170 -3.033 0.00249 **
bathrooms 25.24714 11.26648 2.241 0.02525 *
yr_built -1.47244 0.20216 -7.284 6.57e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
También es recomendable estimar los intervalos de confianza:
> confint(Modelo_final)
2.5 % 97.5 %
(Intercept) 2273.2491890 3813.3400611
sqft_living 0.1573124 0.1972786
bedrooms -34.5746732 -7.4092884
bathrooms 3.1385287 47.3557421
yr_built -1.8691407 -1.0757377
Los factores que predicen de forma simultánea el precio de la vivienda son: el tamaño, el número de baños,
el número de habitaciones y el año de construcción. Por cada aumento de un metro cuadrado en el tamaño
25/38
Regresión
de la vivienda, aumenta el precio en 0,17 miles de $ (intervalo de confianza –IC- 95 %: 0,16; 0,20). Por cada
habitación más de la vivienda el precio disminuye en 20.99 miles de $ (IC 95%: -34.57; -7.41). Para cada
baño más en la vivienda, aumenta el precio en 25,25 miles de $ (IC 95 %: -3,14; 47,36). Por cada aumento
en el año de construcción de la vivienda, el precio disminuye en -1,47 miles de $ (IC 95 %: -1,87; -1,08). El
R2del modelo es 41,37: el 41,37 % de la variabilidad de la variable precio de la vivienda está explicada por
el resto de variables incluidas en el modelo de regresión.
3.4. Diagnosis y validación del modelo

A continuación, se detallan los aspectos más importantes a revisar tras la realización de un modelo de regresión
lineal.
3.4.1. Asunciones de modelo de regresión lineal
Linealidad
Relación lineal entre la variable predictiva (x) y la variable respuesta (y).
Distribución normal de los residuos
Los residuos se tienen que distribuir de forma normal, con media igual a cero.
Varianza de residuos constante

(homocedasticidad)
La varianza de los residuos ha de ser aproximadamente constante a lo largo del eje X.
Independencia
Las observaciones y1, y2, …, yn son independientes. Es importante tener esto en cuenta cuando se trata de
mediciones temporales. Otro caso frecuente es el de tener varias mediciones para un mismo sujeto.
3.4.2. Observaciones influyentes y outliers
Hay que estudiar con detenimiento las observaciones influyentes y outliers, ya que pueden generar una falsa
correlación que realmente no existe u ocultar una existente. ¿La omisión de una observación particular provocaría
una gran diferencia en la regresión?
En el gráfico se muestra una variable respuesta ficticia y frente a una variable de exposición x, en la que hay una
observación altamente influyente en la parte superior derecha.
26/38
Regresión
Figura 5. Diagrama de dispersión y outlier
Figura 5. Diagrama de dispersión y outlier.
Distancia de Cook
Para evaluar la influencia de estas observaciones, se calculan las distancias de Cook.
La distancia de Cook del caso i-ésimo consiste en buscar la distancia entre los parámetros estimados si
incluyen la observación i-ésima y si no la incluyen. Cada observación tiene su distancia y se considera
significativa si es mayor que uno.
3.4.3. Herramientas para valorar las asunciones del modelo de regresión lineal
Dado que las condiciones se verifican a partir de los residuos, primero se suele generar el modelo y después se
valida. A continuación, se presentarán cinco herramientas que permitirán evaluar las asunciones del modelo:
27/38
Regresión
Gráfico de dispersión de x e y
Permite detectar no linealidad, heterocedasticidad y outilers.
Figura 6. Asunciones regresión lineal.
28/38
Regresión
Gráfico de residuos frente a valores ajustados
Permite detectar problemas de heterocedasticidad: si el modelo es apropiado, deberían ser puntos aleatorios
alrededor del cero (formas cónicas son un claro indicio de falta de homocedasticidad).
Figura 7. Asunciones regresión lineal.
También es posible detectar problemas de heterocedasticidad a través de o mediante contraste de hipótesis

mediante el test de Breusch-Pagan. La hipótesis nula de este contraste es “H0: no hay heterocedasticidad”.
Gráfico Q-Q de los residuos estandarizados
La distribución normal de los residuos se puede comprobar con un histograma, con la distribución de cuantiles
(“qqnorm() + qqline()”) o con un test de hipótesis de normalidad (Shapiro-Wilks). Estos gráficos también son
útiles para detectar outliers que suelen ser una causa frecuente por la que se viola la condición de normalidad.
29/38
Regresión
Ejemplo en R: comprobación de las asunciones del modelo con R
En primer lugar, se representa el gráfico de dispersión x e y:
> plot(sqft_living, pricemiles)
> abline(regresion, col="red")
Figura 8. Ejemplo R.
En el diagrama de dispersión con los datos del ejemplo, no se observa ningún patrón que
indique no linealidad o heterocedasticidad. Se observa que existe una relación lineal entre el
precio y el tamaño de la vivienda. Sin embargo, sí que se puede observar un valor outlier en
la zona superior derecha del gráfico.
El resto de las herramientas para la valoración de las asunciones del modelo se basan en los residuos.
Función “lm()”
Calcula y almacena los valores predichos por el modelo y los residuos.
> regresion <- lm(pricemiles ~ sqft_living)
> prediccion <- regresion$fitted.values
> residuos <- regresion$residuals
> cook<-cooks.distance(regresion)
Además, el objeto devuelto por la función “lm()” puede pasarse como argumento a la función “plot()”, por lo que
se obtienen varios gráficos que permiten evaluar los residuos y los outliers.
30/38
Regresión
> plot(regresion)
> plot(prediccion cook)
> hist(residuos)
Figura 9. Ejemplo R.
Para comprobar la normalidad de los residuos, se pueden realizar dos contrastes de hipótesis:
31/38
Regresión
Normalidad de los residuos
> shapiro.test(residuos)
Shapiro-Wilk normality test
data: residuos
W = 0.98372, p-value = 3.638e-0
Homocedasticidad
>library(lmtest)
>bptest(regresion)
Studentized Breusch-Pagan test
data: modeloR
BP = 0.52916, df = 1, p-value = 0.467
Tanto los gráficos (histograma, normal Q-Q) como el contraste de hipótesis confirman la normalidad de los
residuos.
El gráfico de los residuos versus los valores ajustados y el test de homocedasticidad no muestran signos de
heterocesdasticidad.
Tanto en el gráfico de dispersión como en el gráfico de normalidad se observan algunos outliers, sin embargo,
las distancias de Cook son inferiores a uno.
¿Qué hacer si no se cumplen las asunciones del modelo?
Comprobar si hay errores en la codificación o introducción de los datos que puedan haber ocasionado la
existencia de outliers u observaciones influyentes.
Explorar relaciones no lineales entre la variable respuesta y la variable explicativa.
Análisis de sensibilidad para examinar si las conclusiones cambian cuando las observaciones
influyentes no son consideradas en el análisis.
Transformar la variable respuesta, la variable explicativa o ambas.
Utilizar métodos robustos, como bootstrap, para calcular intervalos de confianza y contrastes de
hipótesis, independientemente de las asunciones del modelo sobre la distribución de la variable
respuesta.
3.4.4. Multicolinealidad
32/38
Regresión
Cuando en un modelo de regresión lineal existe una fuerte relación lineal entre sus variables independientes,
se dice que existe multicolinealidad aproximada.
En esta situación, el estimador por mínimos cuadrados ordinarios puede ofrecer resultados
inestables, por lo que no se recomienda su uso y se hace necesario disponer de herramientas
que permitan detectar este problema de forma adecuada.
Entre estas herramientas, las más usadas son el factor de inflación de la varianza (FIV) y el número de
condición (NC). Estos valores no son test estadísticos que contrasten si la existencia de multicolinealidad es
grave, sino de reglas de decisión que tratan de establecer umbrales a partir de los cuales es necesario evaluar la
inclusión de dichas variables en el modelo. Normalmente, cuando existe valor de FIV > 10 es un indicativo de
multicolinealidad.
> library(car)
> vif(modelo_final)
sqft_living bedrooms bathrooms yr_built
1.189835 1.727844 1.356791 1.498077
No hay predictores que muestren una correlación lineal muy alta ni inflación de varianza.
IV. Resumen
33/38
Regresión
La regresión lineal es una técnica básica del análisis estadístico y que servirá de base para
análisis más complejos. Mediante dicha técnica, se trata de determinar relaciones de
dependencia de tipo lineal entre una variable dependiente cuantitativa respecto de una
o varias variables explicativas/independientes que pueden ser de tipo cuantitativo o
categórico.
Se trata de generar un modelo de regresión (ecuación de una recta) que permita explicar la
relación lineal que existe entre dos variables. A la recta que minimiza la suma de los residuos al
cuadrado (diferencia entre el valor real y el predicho por la recta) se le denomina recta de
regresión.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación: Y=α+βX+e
Donde α es la constante o intercepto, β la pendiente y e el error aleatorio.
Las asunciones del modelo de regresión lineal son:
Linealidad: relación lineal entre la variable predictiva (x) y la variable respuesta (y).
Distribución normal de los residuos: los residuos se tiene que distribuir de forma
normal, con media igual a cero.
Varianza de residuos constante (homocedasticidad): la varianza de los residuos ha
de ser aproximadamente constante a lo largo del eje X.
Independencia: las observaciones y1, y2, …, yn son independientes.
34/38
Regresión
Ejercicios
Caso práctico
Pincha aquí para descargar el archivo adjunto a esta actividad.
I. PROBLEMA
El departamento de asistencial de una aseguradora solicita al actuario que indique una fórmula que permita la
predicción de los gastos médicos mediante el BMI (el índice de masa corporal, que es una razón matemática
que asocia la masa y la talla de un individuo) del asegurado para poder realizar el business case de negocio.
Para realizar el problema, se usará el siguiente dataset:
```{r}
library(tidyverse)
datos <- read_csv("insurance.csv")
```
Se pide
Representación gráfica de las observaciones.

Cálculo del modelo de regresión lineal simple.
II. PROBLEMA
Regresión lineal con una variable independiente categórica de dos categorías:
Para hacer este ejercicio, se usará la base de datos Salaries de la librería carData.
```{r}
library(carData)
```
Se da el caso de un departamento de recursos humanos de una consultora especializada en people analitycs

que trabaja para una empresa dedicada a la gestión de colegios privados. Se solicita la predicción del salario
de los profesores durante nueve meses en función de las variables que se darán a continuación, para analizar
una investigación que evite la presencia de posibles problemas de discriminación.
35/38
Regresión
Se pide
Se tratará de responder a las siguientes preguntas:
¿Influye el sexo del profesor en el salario?

¿Influye el rango del profesor en el salario?
Analizando toda la información disponible, ¿cuáles son las variables más influyentes?
III. PROBLEMA
Utilizar el dataset precargado en R de auto para los siguientes ejercicios:
Para cargar el dataset, se utilizará el dataset Auto que esta precargado en el paquete ISLR.
```{r}
library(ISLR)
head(Auto)
```
Este conjunto de datos fue tomado de la biblioteca StatLib, que se mantiene en la Universidad Carnegie Mellon.
El conjunto de datos se utilizó en la Exposición de la Asociación Americana de Estadística de 1983.
Un marco de datos con 392 observaciones en las siguientes nueve variables:
MPG
Millas por galón.
Cylinders
Número de cilindros entre cuatro y ocho.
Displacement
Desplazamiento del motor (pulgadas cúbicas).
Horsepower
Caballos de fuerza del motor.
Weight
Peso del vehículo (lb).
Acceleration
Tiempo para acelerar de 0 a 60 mph (seg.)
Year
Año modelo (módulo 100).
36/38
Regresión
Origin
Origen del automóvil (1. estadounidense, 2. europeo, 3. japonés).
Name
Nombre del vehículo.
Los datos originales contenían 408 observaciones, pero se eliminaron 16 observaciones con valores faltantes.
Se pide
Detallar los siguientes apartados:
Exploración de datos iniciales.

Ajuste del modelo con todas las variables.
Herramientas para comprobar las asunciones del modelo.
Selección de las variables mediante el método backward.
Solución
La solución de este caso práctico viene resuelta en el siguiente archivo: solución.
37/38
Regresión
Recursos
Glosario.
Coeficiente de determinación R2: mide el porcentaje de la variabilidad de y explicado por el modelo, es
decir, por su relación lineal con x. Su valor está acotado entre cero y uno.
Intercepto: es el valor de Y cuando X toma el valor cero. Se interpreta como la media de la variable de
respuesta cuando el predictor vale cero. Si la variable de exposición no puede tomar el valor 0, el intercepto
no es interpretable.
Pendiente: se interpreta como el cambio por término medio en y por cada aumento de una unidad en x.
Test F: es un contraste de hipótesis que considera como hipótesis nula que todos los coeficientes beta de
la regresión estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es.
38/38

05 Regresion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

05 Regresion

Cargado por

Copyright:

Formatos disponibles

Regresión

© Ediciones Roble, S.L.

Las variables incluidas son las siguientes:

Tamaño de la vivienda en m2.

Número de plantas de la casa.

Orientación de la vivienda (exterior/no exterior).

Año de construcción de la casa.

Año de renovación de la casa.

El coeficiente de correlación lineal de Pearson.

Figura 1. Diagrama de dispersión.

Fuente: elaboración propia (2020).

> houses <- read.csv("house_prices2.csv")

> cor(sqft_living, pricemiles)

Conocer de forma intuitiva el concepto de regresión lineal simple y múltiple.

Aprender a construir un modelo de regresión lineal múltiple.

3.1. Modelo de regresión lineal

Idea intuitiva de la regresión lineal

Figura 2. Diagrama de dispersión.

Fuente: elaboración propia (2020).

El objetivo consiste en generar un modelo de regresión (ecuación de una recta) que

Figura 3. Diagrama de dispersión y residuos.

Fuente: elaboración propia (2020).

La pendiente ( ) se puede estimar con la siguiente fórmula:

Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente de

> lm(pricemiles ~ sqft_living)

lm(formula = pricemiles ~ sqft_living)

La recta de regresión para el precio de la vivienda respecto al tamaño es:

Como el tamaño no puede tomar el valor cero, el intercepto (α =156,06) no es

3.1.1. Inferencia de los parámetros de regresión

Intervalo de confianza al 95 % para la pendiente de la recta de regresión para cuantificar la magnitud de la

Contraste de hipótesis sobre la pendiente de la recta de regresión (ß)

Primero, se definen las hipótesis nula y alternativa:

> regresion<-lm(pricemiles ~ sqft_living)

lm(formula = pricemiles ~ sqft_living)

Min 1Q Median 3Q Max

-554.58 -124.00 -17.03 107.09 507.76

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.561e+02 1.368e+01 11.40 <2e-16 ***

sqft_living 1.602e-01 6.466e-03 24.78 <2e-16 ***

Residual standard error: 158.4 on 1005 degrees of freedom

Multiple R-squared: 0.3793, Adjusted R-squared: 0.3786

F-statistic: 614 on 1 and 1005 DF, p-value: < 2.2e-16

Asumiendo que (EE( )) es 0,00646, el valor del test estadístico sería:

Intervalo de confianza al 95 % para la pendiente (ß)

Un intervalo de confianza al 95 % para β se calcula con:

> confint(regresion, level = 0.95)

(Intercept) 129.2088309 182.9113788

sqft_living 0.1475414 0.1729186

3.1.2. Modelo de regresión lineal simple con una variable independiente

Figura 4. Diagrama de dispersión variable x categórica.

Fuente: elaboración propia (2020).

La variable respuesta (por ejemplo: el precio en miles de $ de las viviendas).

Predictor (por ejemplo: vivienda exterior (0 “no exterior”; 1 “exterior”).

> regresion2 <- lm(pricemiles ~ exterior)

lm(formula = pricemiles ~ exterior)

Min 1Q Median 3Q Max

-386.71 -148.77 -40.27 123.23 558.73

Estimate Std. Error t value Pr(>|t|)

(Intercept) 441.272 7.974 55.340 < 2e-16 ***

exteriorSi 77.937 12.748 6.114 1.39e-09 ***

Residual standard error: 197.4 on 1005 degrees of freedom

Multiple R-squared: 0.03586, Adjusted R-squared: 0.0349

F-statistic: 37.38 on 1 and 1005 DF, p-value: 1.391e-09