Está en la página 1de 38

Regresión

© Ediciones Roble, S.L.


Indice
Regresión 3
I. Introducción 3
II. Objetivos 5
III. Regresión 5
3.1. Modelo de regresión lineal 5
3.1.1. Inferencia de los parámetros de regresión 9
3.1.2. Modelo de regresión lineal simple con una variable independiente categórica de dos categorías 11
3.2. Bondad de ajuste 14
3.3. Modelo de regresión lineal múltiple 15
3.3.1. Selección de variables 16
3.4. Diagnosis y validación del modelo 26
3.4.1. Asunciones de modelo de regresión lineal 26
3.4.2. Observaciones influyentes y outliers 26
3.4.3. Herramientas para valorar las asunciones del modelo de regresión lineal 27
3.4.4. Multicolinealidad 32
IV. Resumen 33
Ejercicios 35
Caso práctico 35
Recursos 38
Glosario. 38

2/38
Regresión

Regresión

I. Introducción
La regresión lineal

Es una técnica básica del análisis estadístico que servirá de base para análisis más complejos. Mediante dicha
técnica se determinan las relaciones de dependencia de tipo lineal entre una variable dependiente cuantitativa
respecto de una o varias variables explicativas/independientes que pueden ser de tipo cuantitativo o categórico.

A través del análisis de regresión se construirán modelos multivariables para predecir los valores de la variable
dependiente a partir de los valores de las variables independientes.

Para los ejemplos de esta unidad, se utilizará una base de datos que contiene información
sobre el precio y otras características de 1 008 viviendas en Estados Unidos.

Las variables incluidas son las siguientes:

price

Precio en dólares.

bedrooms

Número de habitaciones.

bathrooms

Número de baños.

“sqft_living”

Tamaño de la vivienda en m2.

floors

Número de plantas de la casa.

“Exterior2”

Orientación de la vivienda (exterior/no exterior).

“yr_built”

Año de construcción de la casa.

“yr_renovated”

Año de renovación de la casa.

3/38
Regresión

Supuesto

Tómese como supuesto que se quiere estudiar la relación lineal entre el precio diario de las casas (en miles
de dólares) y el tamaño (en metros cuadrados) de una muestra de hogares en Estados Unidos. En la unidad
uno se presentaron dos herramientas para explorar la relación entre dos variables cuantitativas:

El diagrama de dispersión.

El coeficiente de correlación lineal de Pearson.

El diagrama de dispersión del ejemplo, representado en la figura 1, muestra la existencia de una relación
positiva fuerte entre el tamaño de las casas (eje x; variable independiente) y el precio (eje y; variable
dependiente); valores altos de tamaño se asocian con valores altos de precio.

Figura 1. Diagrama de dispersión.

Fuente: elaboración propia (2020).

Para calcular el coeficiente de correlación lineal en R se puede utilizar la siguiente función, donde “sqft_living”
indica el tamaño de la vivienda y pricemiles el precio.

> houses <- read.csv("house_prices2.csv")

> attach(houses)

> cor(sqft_living, pricemiles)

[1] 0.6158454

En este caso, el valor del coeficiente de correlación lineal entre el tamaño y el precio es 0,62, lo que muestra una
relación lineal positiva entre el tamaño y el precio de los hogares.

4/38
Regresión

La correlación

Cuantifica la fuerza de la asociación entre dos variables cuantitativas y las trata de modo simétrico.

La regresión lineal

Permite estudiar la relación entre dos variables cuantitativas y describe el comportamiento de una variable en
función de la otra.

II. Objetivos
Los objetivos de esta unidad son:

Conocer de forma intuitiva el concepto de regresión lineal simple y múltiple.

Aprender el cálculo e interpretación de los parámetros de los modelos de regresión lineal simple y múltiple.

Conocer el cálculo e interpretación del intervalo de confianza y del contraste de hipótesis del parámetro de la
pendiente en la regresión lineal.

Aprender las asunciones necesarias que se deben cumplir al usar el modelo de regresión lineal.

Aprender a construir un modelo de regresión lineal múltiple.

III. Regresión
A continuación, se introducirá de forma intuitiva el modelo de regresión lineal:

3.1. Modelo de regresión lineal

5/38
Regresión

Idea intuitiva de la regresión lineal

Consiste en intentar resumir la información del diagrama de dispersión mediante una recta que se ajuste a la
nube de puntos, tal y como se muestra en el diagrama de la derecha de la figura 2.

Figura 2. Diagrama de dispersión.

Fuente: elaboración propia (2020).

El objetivo consiste en generar un modelo de regresión (ecuación de una recta) que


permita explicar la relación lineal que existe entre dos variables. En este ejemplo, entre
precio y tamaño. A la variable dependiente o respuesta se la identifica como Y, y a la variable
predictora o independiente como X.

La recta de regresión

Intuitivamente, la recta de regresión será aquella que esté más cerca de todos los puntos. Para
determinar esta recta, se utiliza el método de los mínimos cuadrados, que elige como recta de regresión aquella
que minimiza las distancias verticales de las observaciones a la recta, tal y como se refleja a continuación:

6/38
Regresión

Figura 3. Diagrama de dispersión y residuos.

Fuente: elaboración propia (2020).

La distancia vertical entre el valor observado y el valor ajustado por la recta se denomina
residuo (ei). Los residuos pueden ser positivos o negativos y al sumarlos podrían
cancelarse. El método de los mínimos cuadrados utiliza la minimización de la suma de los
residuos al cuadrado (ei2).

A la recta que minimiza la suma de los residuos al cuadrado se le denomina recta de regresión. El modelo de
regresión lineal simple se describe de acuerdo a la siguiente ecuación: Y=α+βX+e

Siendo α la constante o intercepto, β la pendiente y e el error aleatorio. Este último representa la diferencia
entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que influyen en Y,
pero que no se incluyen en el modelo como predictores.

7/38
Regresión

En la gran mayoría de casos, los valores α y β poblacionales son desconocidos, por lo que,
a partir de una muestra, se obtienen sus estimaciones α y β. Estas estimaciones se
conocen como coeficientes de regresión o least square coefficient estimates, ya que toman
aquellos valores que minimizan la suma de cuadrados residuales, lo que da lugar a la recta
que pasa más cerca de todos los puntos. La fórmula de la recta es la siguiente:

La pendiente ( ) se puede estimar con la siguiente fórmula:

Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente de


correlación de Pearson que se ha visto previamente.
El intercepto α es el valor de Y cuando X toma el valor 0; se interpreta como la
media de la variable de respuesta cuando el predictor vale 0. Si la variable de
exposición no puede tomar el valor 0, el intercepto no es interpretable.
La pendiente ( ) se interpreta como el cambio por término medio en y por cada
aumento de una unidad en x; el cambio por término medio en la variable respuesta
por cada aumento de una unidad en la variable predictor.

8/38
Regresión

Siguiendo con el ejemplo visto anteriormente, la función “lm()” en R permite estimar un modelo
de regresión lineal por mínimos cuadrados en el que la variable respuesta es precio
(“Price_miles”) y el predictor tamaño (“sqft_living”).

> lm(pricemiles ~ sqft_living)

Call:

lm(formula = pricemiles ~ sqft_living)

Coefficients:

(Intercept) sqft_living

156.0601 0.1602

La recta de regresión para el precio de la vivienda respecto al tamaño es:

Como el tamaño no puede tomar el valor cero, el intercepto (α =156,06) no es


interpretable.
La pendiente ( = 0,16) se interpretaría de la siguiente manera: el precio de las
viviendas se incrementa, en media, 0,16 miles de $ por cada aumento de 1 m2 en su
tamaño.

Para que el intercepto sea interpretable se deben “centrar” (restarles su media) los valores de la
variable predictora.

3.1.1. Inferencia de los parámetros de regresión

En la mayoría de las ocasiones, aunque los parámetros de la recta de regresión se estiman con
los datos de la muestra, el objetivo principal es poder sacar conclusiones de la relación entre
dos variables en la población de la que se extrajo la muestra.

En los individuos de la muestra, se observa una relación positiva entre el precio y el tamaño. Pero, ¿esta relación
puede ser explicada por azar o existe en la población?

Para responder a esta pregunta, se aplican las herramientas aprendidas en la unidad de inferencia para realizar:

Contraste de hipótesis sobre la pendiente de la recta de regresión en la población, β, para determinar si existe
una relación lineal entre el tamaño y el precio de los hogares de la población.

9/38
Regresión

Intervalo de confianza al 95 % para la pendiente de la recta de regresión para cuantificar la magnitud de la


asociación entre el tamaño y el precio.

Contraste de hipótesis sobre la pendiente de la recta de regresión (ß)

Primero, se definen las hipótesis nula y alternativa:

Hipótesis nula

En la población de la que se extrajo la muestra, no hay una relación lineal entre el tamaño y el precio de la
vivienda. H 0: β=0

Hipótesis alternativa

En la población de la que se extrajo la muestra hay una relación lineal entre el tamaño y el precio de la
vivienda. H a: β≠0

Para poder calcular el valor del test estadístico y el p-valor, es necesario estimar el error estándar (EE( )):

> regresion<-lm(pricemiles ~ sqft_living)

> summary(regresion)

Call:

lm(formula = pricemiles ~ sqft_living)

Residuals:

Min 1Q Median 3Q Max

-554.58 -124.00 -17.03 107.09 507.76

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.561e+02 1.368e+01 11.40 <2e-16 ***

sqft_living 1.602e-01 6.466e-03 24.78 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 158.4 on 1005 degrees of freedom

Multiple R-squared: 0.3793, Adjusted R-squared: 0.3786

10/38
Regresión

F-statistic: 614 on 1 and 1005 DF, p-value: < 2.2e-16

Asumiendo que (EE( )) es 0,00646, el valor del test estadístico sería:

Bajo la hipótesis nula, el estadístico t sigue una distribución t de student con n-2 grados de libertad. El p-valor del
contraste es <0.05. Los datos muestran evidencia estadística suficiente para rechazar la hipótesis nula, es decir:
para afirmar que existe una relación lineal entre el tamaño y el precio de las viviendas de una región de Estados
Unidos.

Intervalo de confianza al 95 % para la pendiente (ß)

Un intervalo de confianza al 95 % para β se calcula con:

Donde tn-2 es el punto de la distribución t de student con n-2 grados de libertad que deja en las colas una
probabilidad del 5 %. Para calcular el intervalo de confianza al 95 % con R:

> confint(regresion, level = 0.95)

2.5 % 97.5 %

(Intercept) 129.2088309 182.9113788

sqft_living 0.1475414 0.1729186

En la población de hogares de una región de Estados Unidos existe una seguridad con un 95 % de confianza de
que el precio de la vivienda aumenta entre 0,15 y 0,17 miles de $ por cada aumento de un m2 en el tamaño de la
vivienda. Como el intervalo de confianza no incluye al cero, podemos concluir con una confianza del 95 % que
hay una relación estadísticamente significativa entre el precio y el tamaño.

3.1.2. Modelo de regresión lineal simple con una variable independiente


categórica de dos categorías

Se quiere estudiar si el precio de las viviendas es igual si la vivienda es exterior o no. En este caso, la variable de
interés es cuantitativa y el predictor es una variable categórica de dos categorías. Si se intenta representar los
datos en un diagrama de dispersión, se obtendría:

11/38
Regresión

Figura 4. Diagrama de dispersión variable x categórica.

Fuente: elaboración propia (2020).

En el gráfico se puede observar la media del medio en las viviendas exteriores (valor uno del eje X) y la media
del precio que no son exteriores (valor cero del eje x). Para comparar la media se puede utilizar el test para la
diferencia de media presentado en la unidad tres, pero también se puede estimar un modelo de regresión.

Sea:

La variable respuesta (por ejemplo: el precio en miles de $ de las viviendas).

Predictor (por ejemplo: vivienda exterior (0 “no exterior”; 1 “exterior”).

Y=α+βX+e

Valor medio de y cuando x vale 0 (por ejemplo: precio medio en las viviendas no exteriores).

Diferencia entre las medias del grupo 1 y grupo 0 (por ejemplo: diferencia entre la media de precio en las
viviendas exteriores y la media de precio en las no exteriores).

Código en R

> regresion2 <- lm(pricemiles ~ exterior)

Call:

lm(formula = pricemiles ~ exterior)

12/38
Regresión

Residuals:

Min 1Q Median 3Q Max

-386.71 -148.77 -40.27 123.23 558.73

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 441.272 7.974 55.340 < 2e-16 ***

exteriorSi 77.937 12.748 6.114 1.39e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 197.4 on 1005 degrees of freedom

Multiple R-squared: 0.03586, Adjusted R-squared: 0.0349

F-statistic: 37.38 on 1 and 1005 DF, p-value: 1.391e-09

> confint(regresion2, level = 0.95)

2.5 % 97.5 %

(Intercept) 425.62497 456.9195

exteriorSi 52.92123 102.9518

Intercept= 441,27

El precio medio de las viviendas no exteriores es 441,27 miles de euros (IC 95 %: 425,62; 7 456,92).

“exteriorSi=77.94”

Las viviendas exteriores valen en media 77,94 (IC 95 %: 52,92; 102,95). Miles de $ más que las viviendas no
exteriores (categoría de referencia).

13/38
Regresión

El p-valor del contraste H 0: β=0 es <0.05. Los datos presentan evidencia estadística
suficiente para afirmar que el precio medio en las viviendas exteriores es diferente a las no
exteriores.

3.2. Bondad de ajuste


Una vez que se ha ajustado un modelo, es necesario verificar su eficiencia, ya que aun siendo la línea que mejor
se ajusta a las observaciones de entre todas las posibles, el modelo puede no ser bueno. Las medidas más
utilizadas para medir la calidad del ajuste son el test F y el coeficiente de determinación R 2.

Coeficiente de determinación R 2

Mide el porcentaje de la variabilidad de y (por ejemplo: precio) explicado por el modelo, es decir, por su relación
lineal con x (por ejemplo: tamaño). Su valor está acotado entre cero y uno. En los modelos de regresión lineal
simple el valor de R2 se corresponde con el cuadrado del coeficiente de correlación de Pearson (r) entre X e Y,
aunque no es así en regresión múltiple. Existe una modificación de R2 llamada como R2 ajustado que se emplea
principalmente en los modelos de regresión múltiple. Introduce una penalización cuantos más predictores se
incorporan al modelo. En los modelos lineales simples no se emplea.

Test F

Es un contraste de hipótesis que considera como hipótesis nula que todos los coeficientes beta de la regresión
estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es. Se emplea en
modelos de regresión múltiple para saber si al menos alguno de los predictores introducidos en el modelo
contribuye de forma significativa. En modelos lineales simples, dado que solo hay un predictor, el p-valor del test
F es igual al p-valor del t-test del predictor.

14/38
Regresión

En el ejemplo del modelo de regresión del precio de la vivienda sobre el tamaño se encuentra
el R cuadrado y el p-valor del test F (marcados en amarillo a continuación):

> regresion<-lm(pricemiles ~ sqft_living)

> summary(regresion)

Call:

lm(formula = pricemiles ~ sqft_living)

Residuals:

Min 1Q Median 3Q Max

-554.58 -124.00 -17.03 107.09 507.76

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.561e+02 1.368e+01 11.40 <2e-16 ***

sqft_living 1.602e-01 6.466e-03 24.78 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 158.4 on 1005 degrees of freedom

Multiple R-squared: 0.3793, Adjusted R-squared: 0.3786

F-statistic: 614 on 1 and 1005 DF, p-value: < 2.2e-16

El valor de R2 es 0,3793 (37,93 %), es decir, el 37,93 % de la variabilidad de la variable precio


está explicada por la variable tamaño. Además, el p-valor del test F es <0,05 por lo que el
predictor es estadísticamente significativo.

3.3. Modelo de regresión lineal múltiple


Una extensión natural del modelo de regresión lineal simple

Consiste en considerar más de una variable explicativa. Los modelos de regresión múltiple estudian la relación
entre una variable de interés Y (variable respuesta o dependiente) y un conjunto de variables explicativas o
regresoras X1, X2, . . ., Xp.

15/38
Regresión

En el modelo de regresión lineal múltiple se supone que la función de regresión que relaciona la variable
dependiente con las variables independientes es lineal, es decir:

A continuación, se explica cómo seleccionar las variables que se deben incluir en un modelo de regresión.

3.3.1. Selección de variables

L a construcción del modelo final multivariable depende del objetivo del estudio. Cuando el objetivo del
estudio es identificar los factores pronóstico construimos un modelo predictivo.

El objetivo de un modelo predictivo es identificar qué variables se asocian a la variable de


interés de forma independiente; esto es, teniendo en cuenta el efecto simultáneo que el resto de
las variables tienen sobre la variable de interés.

Existen determinadas métricas que podemos utilizar para seleccionar el mejor modelo de entre un conjunto de
ellos con distintos predictores o número de ellos. Entre las métricas más comúnmente utilizadas para comparar
modelos están el criterio de información de Akaike (AIC) y criterio de información bayesiano (BIC).

Dados dos modelos estimados, el modelo con el menor valor de BIC/AIC es el que se prefiere.
Por lo tanto, menor BIC/AIC implica un número menor de variables explicativas, mejor ajuste, o
ambos. En el ejemplo de construcción del modelo se ilustrará el uso de estas métricas.

FASES DE LA SELECCIÓN DE VARIABLES:

Análisis univariable

Identificar qué variables se asocian a la variable de interés sin tener en cuenta el efecto simultáneo del resto de
variables. Es decir, cada modelo de regresión solo incluye una variable.

Análisis multivariable

Identificar qué variables se asocian a la variable de interés teniendo en cuenta el efecto simultáneo que tienen el
resto de variables. Es decir, el modelo de regresión incluye dos o más variables. Hay diferentes métodos para
identificar los predictores incluidos en el modelo final:
Método jerárquico

Basándose en el criterio del analista, se introducen unos predictores determinados en un orden determinado.

Método de entrada forzada

Se introducen todos los predictores simultáneamente.

16/38
Regresión

Método paso a paso (stepwise)

Emplea criterios matemáticos para decidir qué predictores contribuyen significativamente al modelo y en qué
orden se introducen. Dentro de este método existen dos estrategias:
Procedimiento hacia atrás (backguard)

Empezar con un modelo que incluya las variables de exposición que se han asociado significativamente a
la variable de interés en el análisis univariable. Se prueba a eliminar una a una cada variable, si se mejora
el modelo, queda excluida. Este método permite evaluar cada variable en presencia de las otras.

Procedimiento hacia adelante (forward)

Empezar con un modelo vacío. A partir de este se generan todos los posibles modelos introduciendo una
sola variable de entre las disponibles. Aquella variable que mejore en mayor medida el modelo se
selecciona. A continuación, se intenta incrementar el modelo probando a introducir una a una las variables
restantes. Si introduciendo alguna de ellas mejora, también se selecciona. En el caso de que varias lo
hagan, se selecciona la que incremente en mayor medida la capacidad del modelo. Este proceso se
repite hasta llegar al punto en el que ninguna de las variables que quedan por incorporar mejore el
modelo.

En el caso de variables categóricas de más de dos categorías, si al menos uno de sus niveles
es significativo, se considera que la variable lo es. En R, la función “step()” permite encontrar el
mejor modelo basado en AIC utilizando cualquiera de las tres variantes del método paso a
paso.

Ejemplo

Retomando el ejemplo utilizado anteriormente, el objetivo es crear el modelo de regresión


lineal multivariable que mejor prediga el precio de la vivienda en una región de Estados
Unidos utilizando la información disponible.

La variable respuesta/dependiente será el precio de la vivienda en miles y como potenciales predictores vamos
a tomar en consideración: tamaño, número de habitaciones, número de baños, año de construcción, año de
renovación y orientación (exterior/no exterior).

En la primera fase se realizarán los modelos univariables. Aunque con la función step de R
este paso no sería imprescindible, es importante realizar esta fase, ya que aportará un
mayor conocimiento de los datos. En la fase uno del proceso de selección de variables
vamos a estimar un modelo de regresión para cada variable predictora.

Fase uno: análisis univariable

Modelo de regresión con el predictor tamaño de la vivienda:

17/38
Regresión

> Modelo <- lm(pricemiles ~ sqft_living)

> summary(Modelo)

Call:

lm(formula = pricemiles ~ sqft_living)

Residuals:

Min 1Q Median 3Q Max

-554.58 -124.00 -17.03 107.09 507.76

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.561e+02 1.368e+01 11.40 <2e-16 ***

sqft_living 1.602e-01 6.466e-03 24.78 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 158.4 on 1005 degrees of freedom

Multiple R-squared: 0.3793, Adjusted R-squared: 0.3786

F-statistic: 614 on 1 and 1005 DF, p-value: < 2.2e-16

Existe una relación lineal entre el precio de la vivienda y el tamaño (p-valor< 0.05). Por cada aumento del
tamaño de la vivienda en una unidad, el precio aumenta en 1 602 euros. El coeficiente de determinación
R2 0,3793, es decir, el tamaño de la vivienda explica casi el 38 % de la variabilidad del precio de la
vivienda.

Modelo de regresión con el predictor número de habitaciones:

> Modelo <- lm(pricemiles ~ bedrooms)

> summary(Modelo)

Call:

lm(formula = pricemiles ~ bedrooms)

Residuals:

Min 1Q Median 3Q Max

18/38
Regresión

-342.32 -151.50 -31.68 121.16 553.32

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 219.764 22.429 9.798 <2e-16 ***

bedrooms 75.638 6.491 11.652 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 188.7 on 1005 degrees of freedom

Multiple R-squared: 0.119, Adjusted R-squared: 0.1181

F-statistic: 135.8 on 1 and 1005 DF, p-value: < 2.2e-16

Se observa también que existe una relación lineal estadísticamente significativa entre el número de
habitaciones y el precio de la vivienda. El precio de la vivienda se incrementa en 75,63 mil euros por cada
aumento de una habitación. La variabilidad explicada (R2) del modelo es el 11,9 %.

Modelo de regresión con el predictor número de baños:

> Modelo <- lm(pricemiles ~ bathrooms)

> summary(Modelo)

Call:

lm(formula = pricemiles ~ bathrooms)

Residuals:

Min 1Q Median 3Q Max

-351.3 -148.5 -27.3 124.1 592.2

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 230.912 17.110 13.50 <2e-16 ***

bathrooms 117.938 7.894 14.94 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 181.9 on 1005 degrees of freedom

19/38
Regresión

Multiple R-squared: 0.1817, Adjusted R-squared: 0.1809

F-statistic: 223.2 on 1 and 1005 DF, p-value: < 2.2e-16

También se observa una relación lineal significativa entre el número de baños y el precio de la vivienda.
Por cada baño más, el precio de la vivienda se incrementa en 117 938 miles de euros. La variabilidad
explicada (R2) del modelo es el 18,2 %.

Modelo de regresión con el predictor año de construcción:

> Modelo <- lm(pricemiles ~ yr_built)

> summary(Modelo)

Call:

lm(formula = pricemiles ~ yr_built)

Residuals:

Min 1Q Median 3Q Max

-372.54 -156.85 -43.59 129.75 551.96

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -279.9361 427.9670 -0.654 0.5132

yr_built 0.3813 0.2171 1.757 0.0793 .

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 200.8 on 1005 degrees of freedom

Multiple R-squared: 0.003061, Adjusted R-squared: 0.002069

F-statistic: 3.086 on 1 and 1005 DF, p-value: 0.07928

No se observa una relación estadísticamente significativa entre el año de construcción y el precio. Aunque
el p-valor está en el límite de la significación estadística (P-valor <0,1). La variabilidad explicada es del 0,3
%.

Modelo de regresión con el predictor año de renovación:

> Modelo <- lm(pricemiles ~ yr_renovated)

> summary(Modelo)

20/38
Regresión

Call:

lm(formula = pricemiles ~ yr_renovated)

Residuals:

Min 1Q Median 3Q Max

-393.88 -155.40 -39.15 130.74 530.85

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 469.14860 6.46703 72.545 <2e-16 ***

yr_renovated 0.03003 0.01551 1.936 0.0531 .

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 200.7 on 1005 degrees of freedom

Multiple R-squared: 0.003716, Adjusted R-squared: 0.002725

F-statistic: 3.749 on 1 and 1005 DF, p-value: 0.05313

No se observa una relación estadísticamente significativa entre el año de renovación y el precio. Aunque
el p-valor está en el límite de la significación estadística (P-valor <0,1). La variabilidad explicada es del 0,3
%.

Modelo de regresión con el predictor orientación de la vivienda:

> Modelo <- lm(pricemiles ~ exterior)

> summary(Modelo)

Call:

lm(formula = pricemiles ~ exterior)

Residuals:

Min 1Q Median 3Q Max

-386.71 -148.77 -40.27 123.23 558.73

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 441.272 7.974 55.340 < 2e-16 ***

21/38
Regresión

exteriorSi 77.937 12.748 6.114 1.39e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 197.4 on 1005 degrees of freedom

Multiple R-squared: 0.03586, Adjusted R-squared: 0.0349

F-statistic: 37.38 on 1 and 1005 DF, p-value: 1.391e-09

Las viviendas exteriores tienen un precio en media 77,93 miles de euros superior a las no exteriores. La
variabilidad explicada es del 3 %.

Fase dos: análisis multivariable

Se va a construir el modelo multivariable predictivo con un enfoque hacia atrás. En primer lugar, se construirá
el modelo con todas las variables potencialmente predictoras. Aunque el año de renovación y el año de
construcción no resultaron estadísticamente significativos, se incluirán en el modelo final, ya que están en el
límite de la significación estadística (P-valor <0,1).

> Modelo <-lm(pricemiles ~ sqft_living + bedrooms + bathrooms+ yr_built+ yr_renovated+ exterior)

> summary(Modelo)

Call:

lm(formula = pricemiles ~ sqft_living + bedrooms + bathrooms +

yr_built + yr_renovated + exterior)

Residuals:

Min 1Q Median 3Q Max

-708.12 -116.49 -9.73 104.33 486.27

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.891e+03 4.248e+02 6.805 1.73e-11 ***

sqft_living 1.761e-01 1.026e-02 17.169 < 2e-16 ***

bedrooms -2.102e+01 6.935e+00 -3.031 0.0025 **

bathrooms 2.347e+01 1.139e+01 2.061 0.0396 *

yr_built -1.394e+00 2.185e-01 -6.381 2.68e-10 ***

22/38
Regresión

yr_renovated 1.073e-03 1.235e-02 0.087 0.9308

exteriorSi 1.240e+01 1.063e+01 1.166 0.2437

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 154.2 on 1000 degrees of freedom

Multiple R-squared: 0.4145, Adjusted R-squared: 0.411

F-statistic: 118 on 6 and 1000 DF, p-value: < 2.2e-16

El modelo con todas las variables introducidas como predictores tiene un R2 alto (0,4145). Es capaz de
explicar el 41,45 % de la variabilidad observada en el precio de la vivienda. El p-valor del modelo es
significativo (<0.05), por lo que se puede aceptar que la relación no es producto del azar; al menos uno de los
coeficientes parciales de regresión es distinto de cero. Hay dos predictores que no son significativos, lo que
es un indicativo de que podrían no contribuir al modelo.

El siguiente paso es construir un modelo “hacia atrás” para seleccionar el mejor conjunto de predictores. El
valor matemático empleado para determinar la calidad del modelo va a ser Akaike (AIC). Para construir el
modelo hacia atrás se utiliza la función de step de R con la opción backguard.

> step(object =Modelo, direction = "backward", trace = 1)

Start: AIC=10154.41

pricemiles ~ sqft_living + bedrooms + bathrooms + yr_built +

yr_renovated + exterior

Df Sum of Sq RSS AIC

- yr_renovated 1 180 23787121 10152

- exterior 1 32366 23819308 10154

<none> 23786941 10154

- bathrooms 1 101032 23887974 10157

- bedrooms 1 218497 24005439 10162

- yr_built 1 968649 24755590 10193

- sqft_living 1 7012054 30798995 10413

Step: AIC=10152.41

pricemiles ~ sqft_living + bedrooms + bathrooms + yr_built +

exterior

23/38
Regresión

Df Sum of Sq RSS AIC

- exterior 1 32280 23819401 10152

<none> 23787121 10152

- bathrooms 1 101986 23889107 10155

- bedrooms 1 219862 24006983 10160

- yr_built 1 1038154 24825275 10193

- sqft_living 1 7043353 30830474 10412

Step: AIC=10151.78

pricemiles ~ sqft_living + bedrooms + bathrooms + yr_built

Df Sum of Sq RSS AIC

<none> 23819401 10152

- bathrooms 1 119374 23938775 10155

- bedrooms 1 218647 24038048 10159

- yr_built 1 1261119 25080520 10202

- sqft_living 1 7205763 31025164 10416

Call:

lm(formula = pricemiles ~ sqft_living + bedrooms + bathrooms +

yr_built)

Coefficients:

(Intercept) sqft_living bedrooms bathrooms yr_built

3043.2946 0.1773 -20.9920 25.2471 -1.4724

En la salida de R, se observa que con el método backward se parte del total de las variables, y en función del
AIC se determina qué variables deben abandonar el modelo.
El proceso finaliza cuanto el AIC de referencia es menor que el AIC de las variables predictoras del modelo

El mejor modelo ha sido (AIC más pequeño), es decir, el último de la salida de la función step:

> Modelo_final <-lm(pricemiles ~ sqft_living +bedrooms + bathrooms + yr_built )

> summary(Modelo_final)

24/38
Regresión

Call:

lm(formula = pricemiles ~ sqft_living + bedrooms + bathrooms +

yr_built)

Residuals:

Min 1Q Median 3Q Max

-717.27 -117.43 -11.92 104.40 482.22

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 3043.29463 392.41297 7.755 2.16e-14 ***

sqft_living 0.17730 0.01018 17.410 < 2e-16 ***

bedrooms -20.99198 6.92170 -3.033 0.00249 **

bathrooms 25.24714 11.26648 2.241 0.02525 *

yr_built -1.47244 0.20216 -7.284 6.57e-13 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 154.2 on 1002 degrees of freedom

Multiple R-squared: 0.4137, Adjusted R-squared: 0.4114

F-statistic: 176.8 on 4 and 1002 DF, p-value: < 2.2e-16

También es recomendable estimar los intervalos de confianza:

> confint(Modelo_final)

2.5 % 97.5 %

(Intercept) 2273.2491890 3813.3400611

sqft_living 0.1573124 0.1972786

bedrooms -34.5746732 -7.4092884

bathrooms 3.1385287 47.3557421

yr_built -1.8691407 -1.0757377

Los factores que predicen de forma simultánea el precio de la vivienda son: el tamaño, el número de baños,
el número de habitaciones y el año de construcción. Por cada aumento de un metro cuadrado en el tamaño

25/38
Regresión

de la vivienda, aumenta el precio en 0,17 miles de $ (intervalo de confianza –IC- 95 %: 0,16; 0,20). Por cada
habitación más de la vivienda el precio disminuye en 20.99 miles de $ (IC 95%: -34.57; -7.41). Para cada
baño más en la vivienda, aumenta el precio en 25,25 miles de $ (IC 95 %: -3,14; 47,36). Por cada aumento
en el año de construcción de la vivienda, el precio disminuye en -1,47 miles de $ (IC 95 %: -1,87; -1,08). El
R2del modelo es 41,37: el 41,37 % de la variabilidad de la variable precio de la vivienda está explicada por
el resto de variables incluidas en el modelo de regresión.

3.4. Diagnosis y validación del modelo


A continuación, se detallan los aspectos más importantes a revisar tras la realización de un modelo de regresión
lineal.

3.4.1. Asunciones de modelo de regresión lineal

Linealidad

Relación lineal entre la variable predictiva (x) y la variable respuesta (y).

Distribución normal de los residuos

Los residuos se tienen que distribuir de forma normal, con media igual a cero.

Varianza de residuos constante


(homocedasticidad)

La varianza de los residuos ha de ser aproximadamente constante a lo largo del eje X.

Independencia

Las observaciones y1, y2, …, yn son independientes. Es importante tener esto en cuenta cuando se trata de
mediciones temporales. Otro caso frecuente es el de tener varias mediciones para un mismo sujeto.

3.4.2. Observaciones influyentes y outliers

Hay que estudiar con detenimiento las observaciones influyentes y outliers, ya que pueden generar una falsa
correlación que realmente no existe u ocultar una existente. ¿La omisión de una observación particular provocaría
una gran diferencia en la regresión?
En el gráfico se muestra una variable respuesta ficticia y frente a una variable de exposición x, en la que hay una
observación altamente influyente en la parte superior derecha.

26/38
Regresión

Figura 5. Diagrama de dispersión y outlier

Figura 5. Diagrama de dispersión y outlier.

Fuente: elaboración propia (2020).

Distancia de Cook

Para evaluar la influencia de estas observaciones, se calculan las distancias de Cook.

La distancia de Cook del caso i-ésimo consiste en buscar la distancia entre los parámetros estimados si
incluyen la observación i-ésima y si no la incluyen. Cada observación tiene su distancia y se considera
significativa si es mayor que uno.

3.4.3. Herramientas para valorar las asunciones del modelo de regresión lineal

Dado que las condiciones se verifican a partir de los residuos, primero se suele generar el modelo y después se
valida. A continuación, se presentarán cinco herramientas que permitirán evaluar las asunciones del modelo:

27/38
Regresión

Gráfico de dispersión de x e y

Permite detectar no linealidad, heterocedasticidad y outilers.

Figura 6. Asunciones regresión lineal.

Fuente: elaboración propia (2020).

28/38
Regresión

Gráfico de residuos frente a valores ajustados

Permite detectar problemas de heterocedasticidad: si el modelo es apropiado, deberían ser puntos aleatorios
alrededor del cero (formas cónicas son un claro indicio de falta de homocedasticidad).

Figura 7. Asunciones regresión lineal.

Fuente: elaboración propia (2020).

También es posible detectar problemas de heterocedasticidad a través de o mediante contraste de hipótesis


mediante el test de Breusch-Pagan. La hipótesis nula de este contraste es “H0: no hay heterocedasticidad”.

Gráfico Q-Q de los residuos estandarizados

La distribución normal de los residuos se puede comprobar con un histograma, con la distribución de cuantiles
(“qqnorm() + qqline()”) o con un test de hipótesis de normalidad (Shapiro-Wilks). Estos gráficos también son
útiles para detectar outliers que suelen ser una causa frecuente por la que se viola la condición de normalidad.

29/38
Regresión

Ejemplo en R: comprobación de las asunciones del modelo con R

En primer lugar, se representa el gráfico de dispersión x e y:

> plot(sqft_living, pricemiles)

> abline(regresion, col="red")

Figura 8. Ejemplo R.

Fuente: elaboración propia (2020).

En el diagrama de dispersión con los datos del ejemplo, no se observa ningún patrón que
indique no linealidad o heterocedasticidad. Se observa que existe una relación lineal entre el
precio y el tamaño de la vivienda. Sin embargo, sí que se puede observar un valor outlier en
la zona superior derecha del gráfico.

El resto de las herramientas para la valoración de las asunciones del modelo se basan en los residuos.

Función “lm()”

Calcula y almacena los valores predichos por el modelo y los residuos.

> regresion <- lm(pricemiles ~ sqft_living)

> prediccion <- regresion$fitted.values

> residuos <- regresion$residuals

> cook<-cooks.distance(regresion)

Además, el objeto devuelto por la función “lm()” puede pasarse como argumento a la función “plot()”, por lo que
se obtienen varios gráficos que permiten evaluar los residuos y los outliers.

30/38
Regresión

> plot(regresion)

> plot(prediccion cook)

> hist(residuos)

Figura 9. Ejemplo R.

Fuente: elaboración propia (2020).

Para comprobar la normalidad de los residuos, se pueden realizar dos contrastes de hipótesis:

31/38
Regresión

Normalidad de los residuos

> shapiro.test(residuos)

Shapiro-Wilk normality test

data: residuos

W = 0.98372, p-value = 3.638e-0

Homocedasticidad

>library(lmtest)

>bptest(regresion)

Studentized Breusch-Pagan test

data: modeloR

BP = 0.52916, df = 1, p-value = 0.467

Tanto los gráficos (histograma, normal Q-Q) como el contraste de hipótesis confirman la normalidad de los
residuos.

El gráfico de los residuos versus los valores ajustados y el test de homocedasticidad no muestran signos de
heterocesdasticidad.

Tanto en el gráfico de dispersión como en el gráfico de normalidad se observan algunos outliers, sin embargo,
las distancias de Cook son inferiores a uno.

¿Qué hacer si no se cumplen las asunciones del modelo?

Comprobar si hay errores en la codificación o introducción de los datos que puedan haber ocasionado la
existencia de outliers u observaciones influyentes.
Explorar relaciones no lineales entre la variable respuesta y la variable explicativa.
Análisis de sensibilidad para examinar si las conclusiones cambian cuando las observaciones
influyentes no son consideradas en el análisis.
Transformar la variable respuesta, la variable explicativa o ambas.
Utilizar métodos robustos, como bootstrap, para calcular intervalos de confianza y contrastes de
hipótesis, independientemente de las asunciones del modelo sobre la distribución de la variable
respuesta.

3.4.4. Multicolinealidad

32/38
Regresión

Cuando en un modelo de regresión lineal existe una fuerte relación lineal entre sus variables independientes,
se dice que existe multicolinealidad aproximada.

En esta situación, el estimador por mínimos cuadrados ordinarios puede ofrecer resultados
inestables, por lo que no se recomienda su uso y se hace necesario disponer de herramientas
que permitan detectar este problema de forma adecuada.

Entre estas herramientas, las más usadas son el factor de inflación de la varianza (FIV) y el número de
condición (NC). Estos valores no son test estadísticos que contrasten si la existencia de multicolinealidad es
grave, sino de reglas de decisión que tratan de establecer umbrales a partir de los cuales es necesario evaluar la
inclusión de dichas variables en el modelo. Normalmente, cuando existe valor de FIV > 10 es un indicativo de
multicolinealidad.

> library(car)

> vif(modelo_final)

sqft_living bedrooms bathrooms yr_built

1.189835 1.727844 1.356791 1.498077

No hay predictores que muestren una correlación lineal muy alta ni inflación de varianza.

IV. Resumen

33/38
Regresión

La regresión lineal es una técnica básica del análisis estadístico y que servirá de base para
análisis más complejos. Mediante dicha técnica, se trata de determinar relaciones de
dependencia de tipo lineal entre una variable dependiente cuantitativa respecto de una
o varias variables explicativas/independientes que pueden ser de tipo cuantitativo o
categórico.

Se trata de generar un modelo de regresión (ecuación de una recta) que permita explicar la
relación lineal que existe entre dos variables. A la recta que minimiza la suma de los residuos al
cuadrado (diferencia entre el valor real y el predicho por la recta) se le denomina recta de
regresión.

El modelo de regresión lineal simple se describe de acuerdo a la ecuación: Y=α+βX+e

Donde α es la constante o intercepto, β la pendiente y e el error aleatorio.

Las asunciones del modelo de regresión lineal son:

Linealidad: relación lineal entre la variable predictiva (x) y la variable respuesta (y).
Distribución normal de los residuos: los residuos se tiene que distribuir de forma
normal, con media igual a cero.
Varianza de residuos constante (homocedasticidad): la varianza de los residuos ha
de ser aproximadamente constante a lo largo del eje X.
Independencia: las observaciones y1, y2, …, yn son independientes.

34/38
Regresión

Ejercicios

Caso práctico

Pincha aquí para descargar el archivo adjunto a esta actividad.

I. PROBLEMA

El departamento de asistencial de una aseguradora solicita al actuario que indique una fórmula que permita la
predicción de los gastos médicos mediante el BMI (el índice de masa corporal, que es una razón matemática
que asocia la masa y la talla de un individuo) del asegurado para poder realizar el business case de negocio.

Para realizar el problema, se usará el siguiente dataset:

```{r}

library(tidyverse)

datos <- read_csv("insurance.csv")

```

Se pide

Representación gráfica de las observaciones.


Cálculo del modelo de regresión lineal simple.

II. PROBLEMA

Regresión lineal con una variable independiente categórica de dos categorías:

Para hacer este ejercicio, se usará la base de datos Salaries de la librería carData.

```{r}

library(carData)

```

Se da el caso de un departamento de recursos humanos de una consultora especializada en people analitycs


que trabaja para una empresa dedicada a la gestión de colegios privados. Se solicita la predicción del salario
de los profesores durante nueve meses en función de las variables que se darán a continuación, para analizar
una investigación que evite la presencia de posibles problemas de discriminación.

35/38
Regresión

Se pide

Se tratará de responder a las siguientes preguntas:

¿Influye el sexo del profesor en el salario?


¿Influye el rango del profesor en el salario?
Analizando toda la información disponible, ¿cuáles son las variables más influyentes?

III. PROBLEMA

Utilizar el dataset precargado en R de auto para los siguientes ejercicios:

Para cargar el dataset, se utilizará el dataset Auto que esta precargado en el paquete ISLR.

```{r}

library(ISLR)

head(Auto)

```

Este conjunto de datos fue tomado de la biblioteca StatLib, que se mantiene en la Universidad Carnegie Mellon.
El conjunto de datos se utilizó en la Exposición de la Asociación Americana de Estadística de 1983.

Un marco de datos con 392 observaciones en las siguientes nueve variables:

MPG

Millas por galón.

Cylinders

Número de cilindros entre cuatro y ocho.

Displacement

Desplazamiento del motor (pulgadas cúbicas).

Horsepower

Caballos de fuerza del motor.

Weight

Peso del vehículo (lb).

Acceleration

Tiempo para acelerar de 0 a 60 mph (seg.)

Year

Año modelo (módulo 100).

36/38
Regresión

Origin

Origen del automóvil (1. estadounidense, 2. europeo, 3. japonés).

Name

Nombre del vehículo.

Los datos originales contenían 408 observaciones, pero se eliminaron 16 observaciones con valores faltantes.

Se pide

Detallar los siguientes apartados:

Exploración de datos iniciales.


Ajuste del modelo con todas las variables.
Herramientas para comprobar las asunciones del modelo.
Selección de las variables mediante el método backward.

Solución

La solución de este caso práctico viene resuelta en el siguiente archivo: solución.

37/38
Regresión

Recursos

Glosario.
Coeficiente de determinación R2: mide el porcentaje de la variabilidad de y explicado por el modelo, es
decir, por su relación lineal con x. Su valor está acotado entre cero y uno.

Intercepto: es el valor de Y cuando X toma el valor cero. Se interpreta como la media de la variable de
respuesta cuando el predictor vale cero. Si la variable de exposición no puede tomar el valor 0, el intercepto
no es interpretable.

Pendiente: se interpreta como el cambio por término medio en y por cada aumento de una unidad en x.

Test F: es un contraste de hipótesis que considera como hipótesis nula que todos los coeficientes beta de
la regresión estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es.

38/38

También podría gustarte